如何使用pythonspark将多个数据集合并成一个完整的大数据集?

2024-03-28 14:46:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从17个不同的csv文件制作一个大数据集。每一行包含大约20万行和相同的列。 所以我想做的只是创建一个数据帧,以便以后使用它。你知道吗

我试图寻找SQL连接,但似乎它们需要一个ID才能连接。 数据集没有单一的ID。你知道吗


Tags: 文件csv数据idsql
1条回答
网友
1楼 · 发布于 2024-03-28 14:46:29

如果你想用17个列相同的csv文件创建一个大数据框

  1. 使用glob()列出您的文件
  2. 使用生成器表达式读取文件
  3. 使用concat()方法组合它们
  4. 将新的数据帧写入新的csv文件。你知道吗

试试这个:

import pandas as pd
from glob import glob

all_csv_files = glob('csv_folder/*.csv')
df = pd.concat((pd.read_csv(csv_file) for csv_file in all_csv_files), ignore_index=True)
df.to_csv('final_csv.csv', index=False)

相关问题 更多 >