Python删除重复项。

def deleteDuplicate(): seen = set() dupeCount = 0 counter = 0 with FileInput('DBA.csv', inplace=1) as f: f, f_orig = tee(f) for row, line in zip(csv.reader(f), f_orig): if row[2] in seen: dupeCount+=1 continue seen.add(row[2]) counter+=1 print(line, end='') print(counter) print("Removed {} Duplicates".format(dupeCount))

1条回答

网友

1楼 · 发布于 2024-04-20 05:59:31

请看数据的第一行，描述中有换行符'\n'（以及逗号），因此我们有7行数据

Date,Price DKK,URL,Description
19/5,1 kr.,http://www.dba.dk/8660-vegavej-1-14/id-102010171/,"8660, Vegavej 1-14, hel�rsgrund, Boligprojekt s�lges 1-14 boliger
R�kkehusene ligger ud til et stort smukt fredet omr�de. Alle boliger har private sydvendte haver, som ligger direkte ud til et f�lles omr�de. Der er altan, hvorfra der er udsigt over det facinerende og karakteristiske landskab med �l�b, heste, gravh�j.
Aktiv fritid og lokalmilj�.
Tebstrup er en lille landsby med 660 indbyggere. I byen er der skole, b�rnehave m.m
se"
19/5,1.599.000 kr.,http://www.dba.dk/7800-4-103-372-2013/id-93506363/,"7800 4, 103, 372, 2013, Fyrt�jet 8, 7656, 6130, 80000, Villa"

但如果用csv（和excel）读取，换行符会被引号括起来，因此该行只有一个单元格。你知道吗

with open("output.csv") as f : 
    for row in csv.reader(f):
        print( row )  

['Date', 'Price DKK', 'URL', 'Description']
['19/5', '1 kr.', 'http://www.dba.dk/8660-vegavej-1-14/id-102010171/', '8660, Vegavej 1-14, hel\xef\xbf\xbdrsgrund, Boligprojekt s\xef\xbf\xbdlges 1-14 boliger\r\nR\xef\xbf\xbdkkehusene ligger ud til et stort smukt fredet omr\xef\xbf\xbdde. Alle boliger har private sydvendte haver, som ligger direkte ud til et f\xef\xbf\xbdlles omr\xef\xbf\xbdde. Der er altan, hvorfra der er udsigt over det facinerende og karakteristiske landskab med \xef\xbf\xbdl\xef\xbf\xbdb, heste, gravh\xef\xbf\xbdj.\r\nAktiv fritid og lokalmilj\xef\xbf\xbd.\r\nTebstrup er en lille landsby med 660 indbyggere. I byen er der skole, b\xef\xbf\xbdrnehave m.m\r\nse']
['19/5', '1.599.000 kr.', 'http://www.dba.dk/7800-4-103-372-2013/id-93506363/', '7800 4, 103, 372, 2013, Fyrt\xef\xbf\xbdjet 8, 7656, 6130, 80000, Villa']

文件行可能不等于csv数据中的行。你知道吗

编辑

添加到测试文件以确认您可能看到的内容。你知道吗

null,first,second,third
zero,one,two,"three
,four
five\r\n"
null,first,second,third
nul,un,deux,trois
0,"1,one",2,3

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python删除重复项。

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >