python通过唯一的列/行标题组合多个CSV

Country of Residence,2014-04,2015-04 NORTH AMERICA ,"5,514","6,160" Canada ,"2,417","2,864" U.S.A. ,"3,097","3,296" LATIN AMERICA & THE CARIBBEAN ,281,293 WESTERN EUROPE ,"37,369","34,964" Austria ,893,666 Belgium ,867,995

for filename in glob.iglob(os.path.join('/Documents/stats/csv','*.csv')): with open(filename,'rb') as f: csvIn = csv.reader(f) hdr = csvIn.next() hdr[0] = hdr[0].replace('\xef\xbb\xbf','') hdrList.append((len(hdr),hdr)) hdrList.sort() hdrs = [] template = [] for t in hdrList: for f in t[1]: print(f) if if not (f in hdrs): hdrs.append(f) template.append('')

2条回答

网友

1楼 · 编辑于 2024-04-23 20:11:03

如果你不在乎背后的逻辑，你可以用熊猫来做：

import pandas as pd
file_list = [file1, file2]
dfs = []
for file in file_list:
    dfs.append(pd.read_csv(filepath_or_buffer=file, sep=',', index_col=0))
result_df = pd.concat(dfs, axis=1)
result_df.index.name = 'Country of Residence'
result_df.to_csv('result.csv')

网友

2楼 · 编辑于 2024-04-23 20:11:03

这段代码会让你走上正轨。注意：它是为Python3编写的。在

import glob
import os
import csv

class CountryData:
    """Data for one country for one period of residence."""
    def __init__(self, val1, val2):
        # XXX: What do these values represent?
        self.val1 = val1
        self.val2 = val2

class ResidenceData:
    """Data for one period of residence."""
    def __init__(self):
        self.start_date = ""
        self.end_date = ""
        self.countries = {}

residence_data_list = []
countries = set()
for filename in glob.iglob(os.path.join('/Documents/stats/csv','*.csv')):
    residence_data = ResidenceData()
    residence_data_list.append(residence_data)
    with open(filename,'r') as f:
        csvIn = csv.reader(f)
        for hdr in csvIn:
            hdr[0] = hdr[0].replace('\xef\xbb\xbf','')
            if hdr[0] == 'Country of Residence':
                residence_data.start_date = hdr[1]
                residence_data.end_date = hdr[2]
            else:
                country, val1, val2 = hdr
                country = country.strip()
                country_data = CountryData(val1, val2)
                residence_data.countries[country] = country_data
                countries.add(country)

print("Country of Residence", end="")
for data in residence_data_list:
    print(",", end="")
    print(",".join([data.start_date, data.end_date]), end="")
print()
for country in sorted(countries):
    print(country, end="")
    for data in residence_data_list:
        print(",", end="")
        if country in data.countries:
            country_data = data.countries[country]
            print(",".join([country_data.val1, country_data.val2]), end="")
        else:
            print("NaN,NaN", end="")
    print()

结果：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章