删除重复项的行为不符合预期

In[1]: test Out[1]: 5575 21010210 5575 21010210 5577 21010210 5577 21010210 5577 21010210 5583 21010210 5583 21010210 5583 21010210 5586 21010210 5586 21010210 5586 21010210 8545 21010210 8545 21010210 8718 21000102 8718 21000102 8721 21000102 8721 21000102 Name: CC, dtype: object

In[3]: test.reset_index().drop_duplicates() Out[3]: index CC 0 5575 21010210 2 5577 21010210 5 5583 21010210 8 5586 21010210 11 8545 21010210 13 8718 21000102 15 8721 21000102

1条回答

网友

1楼 · 发布于 2024-04-20 07:24:30

这是你的熊猫对象：

import pandas as pd

data = [
    21010210, 21010210, 21010210, 21010210, 21010210, 21010210, 
    21010210, 21010210,  21010210, 21010210, 21010210, 21010210, 
    21010210, 21000102, 21000102, 21000102, 21000102
]

idx = [
    5575, 5575, 5577, 5577, 5577, 5583, 5583, 5583, 
    5586, 5586, 5586, 8545, 8545, 8718, 8718, 8721, 8721
]

series = pd.Series(data, index=idx).rename("CC")

print(series)

>>>
5575    21010210
5575    21010210
5577    21010210
5577    21010210
5577    21010210
5583    21010210
5583    21010210
5583    21010210
5586    21010210
5586    21010210
5586    21010210
8545    21010210
8545    21010210
8718    21000102
8718    21000102
8721    21000102
8721    21000102
Name: CC, dtype: int64

现在，如果运行^{}，将忽略索引：

Return DataFrame with duplicate rows removed, optionally only considering certain columns. Indexes, including time indexes are ignored

print(series.drop_duplicates())

5575    21010210
8718    21000102
Name: CC, dtype: int64

最后，^{}将返回一个dataframe，其中前一个索引插入到数据帧列中，索引将重置：

print(series.reset_index())
    index        CC
0    5575  21010210
1    5575  21010210
2    5577  21010210
3    5577  21010210
4    5577  21010210
5    5583  21010210
6    5583  21010210
7    5583  21010210
8    5586  21010210
9    5586  21010210
10   5586  21010210
11   8545  21010210
12   8545  21010210
13   8718  21000102
14   8718  21000102
15   8721  21000102
16   8721  21000102

Reset the index of the DataFrame, and use the default one instead.

这意味着drop_duplicates()现在将同时考虑这两个列。你知道吗

print(series.reset_index().drop_duplicates())
    index        CC
0    5575  21010210
2    5577  21010210
5    5583  21010210
8    5586  21010210
11   8545  21010210
13   8718  21000102
15   8721  21000102

最有效的方法是

print(series.loc[~series.index.duplicated()])
5575    21010210
5577    21010210
5583    21010210
5586    21010210
8545    21010210
8718    21000102
8721    21000102
Name: CC, dtype: int64

相关问题更多 >

编程相关推荐

热门问题

热门文章