Python - 计算数据框中不重复行的数量

2024-04-29 07:35:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下格式的数据帧:

UserId, CurrentUserLocationId, RegisteredUserLocationId, RestorauntId

我想计算一下键(UserId, CurrentUserLocationId, RegisteredUserLocationId)的唯一外观数量

例如,如果对(1, 1, 1)出现一次,我希望停止计数并将其包含在最终结果中。所以每一对独一无二的对我只需要数一次。在

我尝试使用groupby(['col1', 'col2', 'col3']).size(),但是这会计算所有记录。我将使用代码的数据集有十亿条记录。在

有没有一种内在的方式来完成我要做的事情?或者更准确地说,做这种计数最快的方法是什么?在


Tags: 数据size数量格式记录col2col3col1
1条回答
网友
1楼 · 发布于 2024-04-29 07:35:15
DataFrame.drop_duplicates()
DataFrame.count

如果需要,请在删除重复项之前复制数据帧,并且在只调用要成为唯一组合的列中调用重复数据帧时。在

相关问题 更多 >