5000万+行数据 - CSV还是MySQL
我有一个大约1GB的CSV文件,里面有大约5000万行数据。我在想,是把它保留为CSV文件好,还是存储成某种数据库更好。我对MySQL了解不多,所以不太能说服自己为什么应该用它或者其他数据库框架,而不是直接把数据放在CSV文件里。我基本上是在用这个数据集做广度优先搜索,一旦我得到最初的“种子”集合,这5000万行数据就会作为我队列中的第一个值。
谢谢,
5 个回答
1
你打算一次性把所有数据都吸收进来吗?如果是这样的话,CSV格式可能是个不错的选择。它简单易用,效果也很好。
如果你需要查找数据,那就用一些可以给数据建立索引的工具,比如MySQL,这样会更合适。
2
如果你想在一些类似图形的东西上进行搜索(因为你提到了广度优先搜索),那么一个图数据库可能会对你有帮助。
3
我想说,使用数据库来处理这么大规模的结构化数据,有很多好处,比用CSV文件要好很多,所以我建议你学习一些相关知识。不过,根据你的描述,你可能想看看一些不需要服务器的、比较轻量级的数据库,比如SQLite,或者类似JavaDB/Derby的东西……另外,根据你数据的结构,你也可以考虑使用非关系型数据库(Nosql),当然,你需要选择一个支持Python的数据库。