在不同类型的大型数据帧中删除重复项的高效时间方法

2024-05-13 03:20:24 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有这个数据帧:

col1 col2

“a”[1,2,3]

“a”[1,2,3]

“b”[4,5,6]

我想删除重复项(在本例中为前两行)。我如何以一种节省时间的Pythonic方式实现这一点(我的完整数据帧是数百万行和7列)


Tags: 数据方式pythoniccol2col1节省时间本例
3条回答

您可以使用^{}

In [1447]: df
Out[1447]: 
  col1     col2
0  'a'  [1,2,3]
1  'a'  [1,2,3]
2  'b'  [4,5,6]

In [1448]: df.drop_duplicates()
Out[1448]: 
  col1     col2
0  'a'  [1,2,3]
2  'b'  [4,5,6]

您可以尝试转换为可散列的内容,然后删除

inplace=True将覆盖您的数据库

df["col2"] = df["col2"].transform(lambda k: tuple(k))
df.drop_duplicates(inplace=True)

有关删除重复项的信息和示例,请参阅Here

相关问题 更多 >