逐列处理大型文件

2024-04-26 14:25:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个巨大的数据框1194行14.000.000列。我需要每列的总和,并且仅当总和大于1时才保存列名和总和。当我尝试加载文本文件(大+30gb)时,进程被终止。该文本文件是tab-delimerated的,如下所示:

cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.

有没有一种方法可以让我在类似《时尚》的专栏中这样做,这样我就不会占用太多的内存


1条回答
网友
1楼 · 发布于 2024-04-26 14:25:51

pandas.read_csv()具有参数skiprowsnrows来读取特定的行块function manual here

我建议设置总和数组(大小为14mln),然后有一个周期,一次读取几行,更新总和,然后在接下来的几行中游荡

相关问题 更多 >