2024-04-26 14:25:51 发布
网友
我有一个巨大的数据框1194行14.000.000列。我需要每列的总和,并且仅当总和大于1时才保存列名和总和。当我尝试加载文本文件(大+30gb)时,进程被终止。该文本文件是tab-delimerated的,如下所示:
cell 17472131 17472132 17472133.. cell_0 1 0 1 cell_1 0 0 0 cell_2 0 1 1 cell_3 1 0 0 . . .
有没有一种方法可以让我在类似《时尚》的专栏中这样做,这样我就不会占用太多的内存
pandas.read_csv()具有参数skiprows和nrows来读取特定的行块function manual here
pandas.read_csv()
skiprows
nrows
我建议设置总和数组(大小为14mln),然后有一个周期,一次读取几行,更新总和,然后在接下来的几行中游荡
pandas.read_csv()
具有参数skiprows
和nrows
来读取特定的行块function manual here我建议设置总和数组(大小为14mln),然后有一个周期,一次读取几行,更新总和,然后在接下来的几行中游荡
相关问题 更多 >
编程相关推荐