达斯克合并和导出cs

import dask.dataframe as dd file_loc_1=r"..." file_loc_2=r"..." data_1=dd.read_csv(file_loc_1,dtype="object",encoding='cp1252') data_2=dd.read_csv(file_loc_2,dtype="object",encoding='cp1252') final_1=dd.merge(file_data_1,file_data_2,left_on="A",right_on="A",how="left") final_loc=r"..." dd.to_csv(final_1,final_loc,index=False,low_memory=False)

1条回答

网友

1楼 · 发布于 2024-04-26 14:47:51

您可以使用熊猫.read_csv：设置chunksize参数该方法返回迭代器。然后，您可以在附加模式下编写一个csv。在

代码示例（未测试）：

import pandas ad pd
import os

src = ['file1.csv', 'file2.csv']
dst = 'file.csv'

for f in src:
    for df in pd.read_csv(f,chuncksize=200000):
        if not os.path.isfile(dst):
            df.to_csv(dst)
        else:
            df.to_csv(dst,mode = 'a', header=False)

有用的链接：

http://acepor.github.io/2017/08/03/using-chunksize/

Panda's Write CSV - Append vs. Write

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

相关问题更多 >

编程相关推荐

热门问题

热门文章

达斯克合并和导出cs

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >