我一直在四处寻找示例,但无法按我希望的方式进行
我想按“OrderID”进行重复数据消除,并提取重复数据以分离CSV。 主要的事情是我需要能够更改我要通过其进行重复数据消除的列,在本例中是它的“订单ID”
示例数据集:
ID Fruit Order ID Quantity Price 1 apple 1111 11 £2.00 2 banana 2222 22 £3.00 3 orange 3333 33 £5.00 4 mango 4444 44 £7.00 5 Kiwi 3333 55 £5.00
输出:
ID Fruit Order ID Quantity Price 5 Kiwi 3333 55 £5.00
我试过这个:
import pandas as pd
df = pd.read_csv('C:/Users/shane/PycharmProjects/PythonTut/deduping/duplicate example.csv')
new_df = df[['ID','Fruit','Order ID','Quantity','Price']].drop_duplicates()
new_df.to_csv('C:/Users/shane/PycharmProjects/PythonTut/deduping/duplicate test.csv', index=False)
我的问题是,它不会删除任何重复项
您可以通过创建一个值为_counts()的新数据帧、合并和过滤来实现这一点
编辑:拖放重复项()只保留唯一的值,但如果发现重复项,则将删除除一个以外的所有值。您可以通过参数“keep”设置它,该参数可以是“first”或“last”
edit2:从您的评论中,您希望将结果导出到csv。 请记住,如上所述,我在两个数据帧中进行了分离:
a)删除重复项的所有项目(df_非重复项)
b)只有重复的项目仍然重复(df_过滤)
如果要使用drop\u duplicates方法,则错误在第二行代码中(应该使用pd.DataFrame)
希望能有帮助
相关问题 更多 >
编程相关推荐