在Python中处理大数据集
我正在做一个学术项目,目的是研究人们的行为。
这个项目分为三个部分:
- 一个程序,用来从一些远程来源读取数据,并建立一个本地的数据池。
- 一个程序,用来验证这个数据池,并保持数据的一致性。
- 一个网页界面,让人们可以查看和操作这些数据。
这些数据包括一份人名单,每个人都有一个ID,还有一些特征,比如身高、体重、年龄等等。
我需要从这些数据中轻松地分组(比如:所有同龄人,或者身高在某个范围内的人),而且数据量有好几个TB大(但可以缩减成2-3GB的小部分)。
我对这个项目背后的理论知识有很强的基础,但我不是计算机科学专业的。我会Java、C和Matlab,现在正在学习Python。
我想用Python,因为它看起来比较简单,而且比Java的代码要简洁很多。问题是,我在想如何处理这个数据池。
我对数据库不是很精通,但我想我在这里需要一个。你觉得我应该使用什么工具呢?
记住,目标是对数据集实施非常复杂的数学函数,因此我们希望减少源代码的复杂性。速度不是问题。
3 个回答
1
因为你还不是专家,我建议你使用mysql数据库来存储你的数据。这个数据库比较简单易学,你可以用SQL语言来查询数据,也可以用Python来写入数据。你可以看看这个 MySQL指南 和这个 Python-Mysql。
3
可以选择像MongoDB这样的NoSQL数据库,这样处理数据会简单得多,不用去学习复杂的SQL语言。
5
听起来你需要的主要功能可以在以下网站找到:
pytables
还有
scipy/numpy