Pandas块大小i

import pandas as pd data=pd.read_table('datafile.txt',sep='\t',chunksize=1000, iterator=True) data=data[data['visits']>10] with open('data.csv', 'a') as f: data.to_csv(f,sep = ',', index=False, header=False)

2条回答

网友

1楼 · 编辑于 2024-05-16 20:50:54

你的逻辑有些问题，我们想循环数据中的每个块，而不是数据本身。在

“chunksize”参数为我们提供了一个“textreader对象”，我们可以对其进行迭代。在

import pandas as pd
data=pd.read_table('datafile.txt',sep='\t',chunksize=1000)

for chunk in data:
    chunk = chunk[chunk['visits']>10]
    chunk.to_csv('data.csv', index = False, header = False)

你需要考虑如何处理你的头！在

网友

2楼 · 编辑于 2024-05-16 20:50:54

当您传递chunksize或iterator=True时，pd.read_table将返回一个TextFileReader，您可以对其进行迭代或调用get_chunk。所以您需要在data上迭代或调用get_chunk。在

所以对整个文件的正确处理可能看起来像

import pandas as pd

data = pd.read_table('datafile.txt',sep='\t',chunksize=1000, iterator=True)

with open('data.csv', 'a') as f:
    for chunk in data:
        chunk[chunk.visits > 10].to_csv(f, sep=',', index=False, header=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章