在Python中从大文件中删除重复行问题的回答

在Python中从大文件中删除重复行

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个csv文件，我想删除其中的重复行，但它太大，无法放入内存。我找到了一种方法来完成它，但我猜这不是最好的方法。 每行包含15个字段和几百个字符，所有字段都需要确定唯一性。与其比较整行以查找重复项，不如比较<code>hash(row-as-a-string)</code>，以节省内存。我设置了一个过滤器，将数据划分成大致相等数量的行（例如一周中的几天），并且每个分区都足够小，以至于该分区的哈希值查找表可以放在内存中。我为每个分区传递一次文件，检查唯一的行并将它们写入第二个文件（伪代码）： <pre><code>import csv headers={'DayOfWeek':None, 'a':None, 'b':None} outs=csv.DictWriter(open('c:\dedupedFile.csv','wb') days=['Mon','Tue','Wed','Thu','Fri','Sat','Sun'] outs.writerows(headers) for day in days: htable={} ins=csv.DictReader(open('c:\bigfile.csv','rb'),headers) for line in ins: hvalue=hash(reduce(lambda x,y:x+y,line.itervalues())) if line['DayOfWeek']==day: if hvalue in htable: pass else: htable[hvalue]=None outs.writerow(line) </code></pre> 我想加快速度的一个方法是找到一个更好的过滤器来减少必要的通过次数。假设行的长度是均匀分布的，可以代替 <pre><code>for day in days: </code></pre> 以及 <pre><code>if line['DayOfWeek']==day: </code></pre> 我们有 <pre><code>for i in range(n): </code></pre> 以及 <pre><code>if len(reduce(lambda x,y:x+y,line.itervalues())%n)==i: </code></pre> 在内存允许的范围内。但这仍然使用同样的方法。 <a href="https://stackoverflow.com/users/344286/wayne-werner" title="Wayne Werner">Wayne Werner</a>在下面提供了一个很好的实用解决方案；我很好奇是否有更好/更快/更简单的方法从算法的角度来实现这一点。 p.S.I仅限于Python2.5。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在Python中从大文件中删除重复行

1 个回答

相关Python问题