Python:如何仅基于某些列来唯一化我的表?

2024-05-16 22:16:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个df:

如何仅基于一列的长度删除重复项?因为我有行,它们的所有列都是相同的,但只有一个不是。我想忽略该列并基于另一列获取唯一值?你知道吗

我就是这样尝试的,但我得到了一个错误:

data.drop_duplicates('asn','first_seen','incident_type','ip','uri')

你知道吗?你知道吗


Tags: ipdfdatatype错误uridropfirst
1条回答
网友
1楼 · 发布于 2024-05-16 22:16:20

你在运行什么版本的pandas?我认为既然>0.14,就应该使用subset关键字向drop_duplicates()提供一个列列表,所以试试看

data.drop_duplicates(subset=['asn','first_seen','incident_type','ip','uri'])

另外请注意,如果您不使用inplace=True,则需要将返回值赋给新的数据帧。你知道吗

根据您的需要,您可能还希望在删除重复行之后调用reset_index()。你知道吗

相关问题 更多 >