如何在Python中流式传输和操作大型数据文件

2024-06-16 10:42:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个相对较大(1 GB)的文本文件,我希望通过在类别之间求和来减小其大小:

Geography AgeGroup Gender Race Count
County1   1        M      1    12
County1   2        M      1    3
County1   2        M      2    0

致:

Geography Count
County1   15
County2   23

如果整个文件可以放在内存中,但使用pandas.read_csv()可以得到MemoryError,这将是一个简单的问题。所以我一直在研究其他方法,似乎有很多选择-HDF5?使用itertools(看起来很复杂-生成器?)或者只使用标准的文件方法读取第一个地理位置(70行),对count列求和,然后在加载到另一个70行之前写出。

有人对最好的方法有什么建议吗?我特别喜欢数据流的想法,特别是因为我可以想到很多其他地方,这将是有用的。我最感兴趣的是这个方法,或者类似地使用最基本的功能。

编辑:在这种小情况下,我只需要按地理位置计算的总和。但是,如果我能够读入一个块,指定任何函数(比如,将两列相加,或者按地理位置取一列的最大值),应用该函数,并在读入一个新块之前写入输出,那将是理想的。


Tags: 文件方法函数内存count地理位置类别gender
2条回答

您可以使用^{},这在语法上与pandas类似,但在核心之外执行操作,因此内存不应该是问题:

import dask.dataframe as dd

df = dd.read_csv('my_file.csv')
df = df.groupby('Geography')['Count'].sum().to_frame()
df.to_csv('my_output.csv')

或者,如果pandas是一个需求,那么可以使用@chrisaycock提到的分块读取。您可能需要尝试chunksize参数。

# Operate on chunks.
data = []
for chunk in pd.read_csv('my_file.csv', chunksize=10**5):
    chunk = chunk.groupby('Geography', as_index=False)['Count'].sum()
    data.append(chunk)

# Combine the chunked data.
df = pd.concat(data, ignore_index=True)
df = df.groupby('Geography')['Count'].sum().to_frame()
df.to_csv('my_output.csv')

我确实喜欢@root的解决方案,但我会进一步优化内存使用率—只在内存中保留聚合的DF,只读取那些列,这是您真正需要的:

cols = ['Geography','Count']
df = pd.DataFrame()

chunksize = 2   # adjust it! for example --> 10**5
for chunk in (pd.read_csv(filename,
                          usecols=cols,
                          chunksize=chunksize)
             ):
    # merge previously aggregated DF with a new portion of data and aggregate it again
    df = (pd.concat([df,
                     chunk.groupby('Geography')['Count'].sum().to_frame()])
            .groupby(level=0)['Count']
            .sum()
            .to_frame()
         )

df.reset_index().to_csv('c:/temp/result.csv', index=False)

测试数据:

Geography,AgeGroup,Gender,Race,Count
County1,1,M,1,12
County2,2,M,1,3
County3,2,M,2,0
County1,1,M,1,12
County2,2,M,1,33
County3,2,M,2,11
County1,1,M,1,12
County2,2,M,1,111
County3,2,M,2,1111
County5,1,M,1,12
County6,2,M,1,33
County7,2,M,2,11
County5,1,M,1,12
County8,2,M,1,111
County9,2,M,2,1111

输出.csv:

Geography,Count
County1,36
County2,147
County3,1122
County5,24
County6,33
County7,11
County8,111
County9,1111

PS使用这种方法可以处理大量文件。

除非您需要对数据进行排序,否则使用分块方法的PPS应该可以工作——在本例中,我将使用经典的UNIX工具,如awksort等,首先对数据进行排序

我还建议使用PyTables(HDF5存储),而不是CSV文件-它非常快,允许有条件地读取数据(使用where参数),因此它非常方便,节省了大量资源,通常与CSV相比much faster

相关问题 更多 >