把两个大文件连在一起，不要用Pandas块

chunks = [] cols = [...] for chunk in pd.read_csv("file2.csv", chunksize=500000, sep=',', error_bad_lines=False, low_memory=False, usecols=cols): chunks.append(chunk) df = pd.concat(chunks, axis=0) print(f.shape)

2条回答

网友

1楼 · 编辑于 2024-04-18 06:37:11

一块一块地读取df2，但由于附加了所有的块，因此生成的块与file2的大小相同。你知道吗

如果您能够完全加载df1，您可以做的是一块一块地加入df2，如下所示：

for chunk in pd.read_csv("file2.csv", chunksize=500000, sep=',', error_bad_lines=False, low_memory=False, usecols=cols):
    df1.merge(chunk, on =['id'], how='left')

网友

2楼 · 编辑于 2024-04-18 06:37:11

这样的分块肯定仍然会使内核崩溃，因为您仍在尝试将所有内容放入内存。你需要对你的大块做些什么来缩小它们的尺寸。你知道吗

例如，您可以分块读取两个文件，连接每个块，将匹配项输出到另一个文件，并将不匹配的id保存在内存中。如果你运气不好的话，这可能会使你的内核崩溃。这取决于您的性能约束是什么，以及以后需要对数据做什么。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章