在Python中处理大数据集

4 投票
3 回答
1471 浏览
提问于 2025-04-16 14:59

我正在做一个学术项目,目的是研究人们的行为。

这个项目分为三个部分:

  1. 一个程序,用来从一些远程来源读取数据,并建立一个本地的数据池。
  2. 一个程序,用来验证这个数据池,并保持数据的一致性。
  3. 一个网页界面,让人们可以查看和操作这些数据。

这些数据包括一份人名单,每个人都有一个ID,还有一些特征,比如身高、体重、年龄等等。

我需要从这些数据中轻松地分组(比如:所有同龄人,或者身高在某个范围内的人),而且数据量有好几个TB大(但可以缩减成2-3GB的小部分)。

我对这个项目背后的理论知识有很强的基础,但我不是计算机科学专业的。我会Java、C和Matlab,现在正在学习Python。

我想用Python,因为它看起来比较简单,而且比Java的代码要简洁很多。问题是,我在想如何处理这个数据池。

我对数据库不是很精通,但我想我在这里需要一个。你觉得我应该使用什么工具呢?

记住,目标是对数据集实施非常复杂的数学函数,因此我们希望减少源代码的复杂性。速度不是问题。

3 个回答

1

因为你还不是专家,我建议你使用mysql数据库来存储你的数据。这个数据库比较简单易学,你可以用SQL语言来查询数据,也可以用Python来写入数据。你可以看看这个 MySQL指南 和这个 Python-Mysql

3

可以选择像MongoDB这样的NoSQL数据库,这样处理数据会简单得多,不用去学习复杂的SQL语言。

5

听起来你需要的主要功能可以在以下网站找到:
pytables
还有
scipy/numpy

撰写回答