用Python快速迭代大量数据？

1条回答

网友

1楼 · 发布于 2024-05-28 21:07:17

如果不了解您正在尝试进行的数据和聚合，很难说什么，但绝对不要做serialize data to parse it faster with Python很可能这不是问题所在。可能不是store data somehow column-wise so that I don't have to read all columns。在

sort SQLite table by GroupID so that groups come in together<；-这听起来是个不错的方法。但是很多聚合（比如count、average、sum等）并不需要这个。在这种类型的聚合中，您只需持有一个(key, aggregation)的映射，然后遍历这些行并迭代地将它们应用于聚合（并丢弃该行）。在

您当前是否在内存中收集属于某个组的所有行并然后进行聚合？如果是这样，您可能只需要更改代码，以便在读取行时进行聚合。在

编辑：回应评论：
如果是这样的话，我会去分类。不过，如果您所做的只是排序，那么SQL可能是一种过度使用。也许你可以把整理好的文件写在磁盘上？一旦你这样做了，你就可以研究并行化。本质上，你将有一个进程读取排序的文件（只要你不做分布式处理，你就不想并行化这个文件），它将一组数据打包并发送到一个进程池（进程的数量应该固定为你所优化的某个数量，以避免内存不足）执行其余的处理。在

相关问题更多 >

编程相关推荐

热门问题

热门文章