使用Pandas或其他方法比较大量（约40GB）文本数据

def thread_worker(file_): removal_path="removal_files" allFiles_removals = glob.glob(removal_path + "/*.csv", recursive=True) print(allFiles_removals) print(file_) file_df = pd.read_csv(file_) file_df.columns = ['Keyword'] for removal_file_ in allFiles_removals: print(removal_file_) vertical_df = pd.read_csv(vertical_file_, header=None) vertical_df.columns = ['Keyword'] vertical_keyword_list = vertical_df['Keyword'].values.tolist() file_df = file_df[~file_df['Keyword'].isin(vertical_keyword_list)] file_df.to_csv('output.csv',index=False, header=False, mode='a')

1条回答

网友

1楼 · 发布于 2024-05-15 21:29:25

你可以这样做：

# read up "removal"  keywords from all CSV files, get rid of duplicates
removals = pd.concat([pd.read_csv(f, sep='~', header=None, names=['Keyword']) for f in removal_files]
                     ignore_index=True).drop_duplicates()


df = pd.DataFrame()
for f in body_files:
    # collect all filtered "body" data (file-by-file)
    df = pd.concat([df,
                    pd.read_csv(f, sep='~', header=None, names=['Keyword']) \
                      .query('Keyword not in @removals.Keyword')],
                   ignore_index=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章