我有一个pandas系列,其索引包含几个重复项,我使用drop_duplicates
使其索引可用于对其他系列/数据帧的进一步切片:
In[1]: test
Out[1]:
5575 21010210
5575 21010210
5577 21010210
5577 21010210
5577 21010210
5583 21010210
5583 21010210
5583 21010210
5586 21010210
5586 21010210
5586 21010210
8545 21010210
8545 21010210
8718 21000102
8718 21000102
8721 21000102
8721 21000102
Name: CC, dtype: object
当我应用test.drop_duplicates()
时,我希望所有现有的索引都保持不变,尽管没有重复。出于某种原因,pandas没有将其中一些索引识别为重复索引,只是将它们从数据帧中清除:
In[2]: test.drop_duplicates()
Out[2]:
5575 21010210
8718 21000102
Name: CC, dtype: object
奇怪的是,如果我之前重置了索引,drop_duplicates
方法将正常工作:
In[3]: test.reset_index().drop_duplicates()
Out[3]:
index CC
0 5575 21010210
2 5577 21010210
5 5583 21010210
8 5586 21010210
11 8545 21010210
13 8718 21000102
15 8721 21000102
为什么熊猫会从操作中删除一些指数?如何在不重置索引的情况下有效地删除这些重复项?你知道吗
这是你的熊猫对象:
现在,如果运行^{} ,将忽略索引:
最后,^{} 将返回一个
dataframe
,其中前一个索引插入到数据帧列中,索引将重置:这意味着
drop_duplicates()
现在将同时考虑这两个列。你知道吗最有效的方法是
相关问题 更多 >
编程相关推荐