如何比较来自多个csv的数据

2024-06-17 11:58:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有25个csv文件,每个文件有四列,我必须比较所有25个csv中名为City的一列,然后在csv中写入输出,作为有多少个文件名的文件中存在哪个城市。 e、 g

在excel中,我希望纽约位于第一行的前0列,然后在下一列中,我希望获得纽约市所在的文件名。像csv_output.csv

New york File 1, File 2, File 3, File 5, File 25
Jakarta  File 1, File 7, File 19.

如何使用Python、Pandas或CSV或任何其他选项来完成此操作

目前,我最初检查了两个csv,但这不起作用。 我的要求是25个CSV文件

import pandas as pd
Data1 = pd.read_csv('C:/Users/File1.csv')
Data2  = pd.read_csv('C:/Users/File2.csv', usecols=['City'])
for df in [Data1, Data2]:
    df['City'] = df['City'].str.rstrip()
result = pd.merge(netscan, computer, on='City', how='outer')

result.to_csv('Report.csv', index=False)
print(result)

Tags: 文件csvcitydfreadoutput文件名result
1条回答
网友
1楼 · 发布于 2024-06-17 11:58:15

这里有一种方法。首先,将所有25个CSV文件收集到一个数据帧中:

import pandas as pd
dfs = list()
for file in files:
    df = pd.read_csv(file)
    df['file'] = file
    dfs.append(df)
dfs = pd.concat(dfs)

接下来,计算摘要统计信息:

result = dfs.groupby('file')['city'].count()

以下是有关发布示例的信息:How to make good reproducible pandas examples

相关问题 更多 >