读取一个巨大的csv并创建一个datafram

2024-06-16 10:14:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大约40000000行和3列的csv,我想读入python,并用这些数据创建一个dataframe。我总是记错。在

df = pd.concat([chunk for chunk in pd.read_csv(cmct_0430x.csv',chunksize=1000)])

我也尝试从生成器创建熊猫数据帧,它仍然有内存错误。在

^{pr2}$

我的电脑是win64,8G

我怎样才能解决这个问题?非常感谢你。在


Tags: csv数据内存indataframedfforread
2条回答

实际上,您使用分块模式读取csv文件,但将它们合并到RAM中的一个数据帧中。所以这个问题仍然存在。您可以将数据分成多个帧,并分别处理它们。在

reader = pd.read_csv(file_name, chunksize=chunk_size, iterator=True)

while True:
    try:
        df = reader.get_chunk(chunk_size)
        # work on df
    except:
        break
    del df

df = pd.read_csv('cmct_0430x.csv')

4000万行应该不是问题。在

如果这不起作用,请发布您的错误消息

相关问题 更多 >