如何删除pandas数据框中具有重复列值的行？

网友

1楼 · 编辑于 2024-05-12 12:34:52

使用带列列表的drop_duplicates和subset检查重复项，并使用keep='first'保留第一个重复项。

如果dataframe是：

df = pd.DataFrame({'Column1': ["'cat'", "'toy'", "'cat'"],
                   'Column2': ["'bat'", "'flower'", "'bat'"],
                   'Column3': ["'xyz'", "'abc'", "'lmn'"]})
print(df)

结果：

  Column1   Column2 Column3
0   'cat'     'bat'   'xyz'
1   'toy'  'flower'   'abc'
2   'cat'     'bat'   'lmn'

然后：

result_df = df.drop_duplicates(subset=['Column1', 'Column2'], keep='first')
print(result_df)

结果：

  Column1   Column2 Column3
0   'cat'     'bat'   'xyz'
1   'toy'  'flower'   'abc'

网友

2楼 · 编辑于 2024-05-12 12:34:52

在Dataframe的drop_duplicates()方法中，您可以提供一系列列名来消除数据中的重复记录。

以下“已测试”代码的作用相同：

import pandas as pd

df = pd.DataFrame()
df.insert(loc=0,column='Column1',value=['cat',     'toy',    'cat'])
df.insert(loc=1,column='Column2',value=['bat',    'flower',  'bat'])
df.insert(loc=2,column='Column3',value=['xyz',     'abc',    'lmn'])

df = df.drop_duplicates(subset=['Column1','Column2'],keep='first')
print(df)

在subset参数内，还可以插入其他列名，默认情况下，它将考虑数据的所有列，并且可以提供keep值：

第一次：删除除第一次出现以外的重复项。
最后：除去最后一次出现的重复项。
错误：删除所有重复项。

网友

3楼 · 编辑于 2024-05-12 12:34:52

import pandas as pd

df = pd.DataFrame({"Column1":["cat", "dog", "cat"],
                    "Column2":[1,1,1],
                    "Column3":["C","A","B"]})

df = df.drop_duplicates(subset=['Column1'], keep='first')
print(df)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何删除pandas数据框中具有重复列值的行？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >