在Python中处理大数据集

4 投票

3 回答

1471 浏览

提问于 2025-04-16 14:59

我正在做一个学术项目，目的是研究人们的行为。

这个项目分为三个部分：

这些数据包括一份人名单，每个人都有一个ID，还有一些特征，比如身高、体重、年龄等等。

我需要从这些数据中轻松地分组（比如：所有同龄人，或者身高在某个范围内的人），而且数据量有好几个TB大（但可以缩减成2-3GB的小部分）。

我对这个项目背后的理论知识有很强的基础，但我不是计算机科学专业的。我会Java、C和Matlab，现在正在学习Python。

我想用Python，因为它看起来比较简单，而且比Java的代码要简洁很多。问题是，我在想如何处理这个数据池。

我对数据库不是很精通，但我想我在这里需要一个。你觉得我应该使用什么工具呢？

记住，目标是对数据集实施非常复杂的数学函数，因此我们希望减少源代码的复杂性。速度不是问题。

数据库数据处理数据验证数学函数数据一致性数据分组大数据网页界面

3 个回答

因为你还不是专家，我建议你使用mysql数据库来存储你的数据。这个数据库比较简单易学，你可以用SQL语言来查询数据，也可以用Python来写入数据。你可以看看这个 MySQL指南和这个 Python-Mysql。

回答于 2025-04-16 由 Python大师

分享举报

可以选择像MongoDB这样的NoSQL数据库，这样处理数据会简单得多，不用去学习复杂的SQL语言。

回答于 2025-04-16 由 Python大师

分享举报

听起来你需要的主要功能可以在以下网站找到：
pytables
还有
scipy/numpy

回答于 2025-04-16 由 Python大师

分享举报