使用Python自動執行數據清理，一些問題

try: infile=open(file1, 'r') for line in infile: line_wk=line.split(",") outfile=open(file2, 'r') for line in outfile: line_wk2=line.split(",") if line_wk[0]==line_wk2[0]: if line_wk[2]!=line_wk2[2]: #ID is not unique, but the widget is to_write=','.join(line_wk) #queued to write later else: to_write=','.join(line_wk) #queued to write later if len(to_write)>0: outfile.close() outfile=open(file2, 'a') outfile.write(to_write) outfile.close() outfile=open(file2, 'r') infile.close() outfile.close() except: print("Something went wrong.")

1条回答

网友

1楼 · 发布于 2024-05-16 09:57:37

您要做的是创建一个字典，其中键是(ID, widget)的元组，值是thing。字典密钥保证是唯一的。所以，你的代码应该是这样的。在

uniques = {}
with open("yourfile.txt") as infile:
    for line in infile:
        ID, thing, widget = line.strip().split(',')
        uniques[(ID, widget)] = thing

with open("output.txt", "w") as outfile:
    for k, v in uniques.iteritems():
        outfile.write("%s,%s,%s\n" % (k[0], v, k[1]))

如果保留它们的原始顺序很重要，那么可以使用collections包中的OrderedDict

您还可以清理outfile.write行的编写方式，但它应该按原样工作。在

最后，由于您似乎正在读/写csv（逗号分隔值）格式，所以可以使用csv module。在

为了测试这个，我写了一个脚本

^{pr2}$

它的运行结果似乎是正确的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章