在Python中读取csv文件并创建字典

2024-05-23 17:04:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个这样的csv数据集:

A, 10, USA
B,30, UK
C,4,IT
A,20,UK
B,10,USA

我想阅读此csv行并提供以下输出:

A has ran 30 miles with average of 15. 
B has ran 30 miles with average of 20.
C has ran 4 miles with average of 4. 

到目前为止,我的解决方案是读取csv数据并将其转换为字典,然后对它们进行迭代,查看“A”重复了多少次,以及它必须为平均值计算哪些值,最后生成结果。我已经编写了这段代码,但是我很难有效地计算a被重复的次数,并将英里数相加以创建我的最终输出。在Python中有什么想法吗?用C#做这件事对我来说有点容易,但我对Python不是很在行。

def main(filename):
    f = open(filename,'r')
    labels = ['name','miles','country']
    data = csv.DictReader(f,labels,delimiter=',')
    for line in data:
        print (line['name']+"  " + "has ran" +"   "+  line['miles']+" "+"miles")

    f.close()

Tags: ofcsv数据namedatalabelswithline
3条回答

您可以使用defaultdict存储值,然后将其打印出来:

import csv

from collections import defaultdict

with open(filename, 'r') as handle:
    reader = csv.DictReader(handle, ['name', 'miles', 'country'])
    data = defaultdict(list)

    for line in reader:
        data[line['name']).append(int(line['miles']))

    for runner, distances in data.items():
        print '{} ran a total of {} miles and an average of {} miles'.format(
            runner, sum(distances), sum(distances) / float(len(distances))
        )

你的循环使用如下分割:

var1,var2,var3=行。拆分(“,”)

这将得到每个变量行中的每个值。然后根据需要使用变量。

您可以执行以下操作:

  1. 将标题行添加到数据中(例如,“Runner、Distance、Country”)。
  2. 将其保存到文件(例如log.csv)。
  3. 在这里用Load-csv函数加载它:https://github.com/kdavies4/ModelicaRes/blob/master/modelicares/util.py#L676 在那里下载util.py文件并执行以下操作:

    from util import load_csv
    d = load_csv("log.csv")
    

    你最终应该得到以下字典:

    d = {'Runner': ['A', 'B', 'C', 'A', 'B'], 'Distance': [10, 30, 4, 20, 10], 'Country': ['USA', 'UK', 'IT', 'UK', 'USA']}
    

    load_csv函数使用csv.reader自动创建一个字典,其中的键以在标题行中找到的条目命名。每个键的字典条目是对应列中的值列表。文件如下: http://kdavies4.github.io/ModelicaRes/util.html#modelicares.util.load_csv。py文件包含许多其他函数,但您可以安全地删除它们(只要您将import numpy as np放在顶部)。

  4. 运行以下代码计算平均距离:

    # Create counter dictionaries for the statistics.
    from collections import Counter
    n_runs = Counter()
    totals = Counter()
    
    # Calculate the total distance.
    for runner, distance in zip(d['Runner'], d['Distance']):
        n_runs[runner] += 1
        totals[runner] += distance
    
    # Print the results.
    for runner in set(d['Runner']):
        print("%s has run %i miles with an average of %g."
              % (runner, totals[runner], totals[runner]/float(n_runs[runner])))
    

这将提供您想要的结果,并且如果数据被扩展(按行或列),它应该是灵活的。

凯文

相关问题 更多 >