试图读取一个大的csv文件和concat太多

2024-06-02 08:00:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图读取一个大的csv文件(超过100gb)
我找到了使用chunksize选项读取大型csv文件的方法

%%time
import time
filename = "../code/csv/file.csv"
lines_number = sum(1 for line in open(filename))
lines_in_chunk = 100# I don't know what size is better
counter = 0
completed = 0
reader = pd.read_csv(filename, chunksize=lines_in_chunk)

这部分非常快
但问题是串联

%%time
df = pd.concat(reader,ignore_index=True)

这花了4个多小时,还没有完成。
ram内存使用量也在不断增长

有没有办法更快更有效地合并这个读卡器文件


Tags: 文件csv方法inimporttime选项code