我有以下格式的数据帧:
UserId, CurrentUserLocationId, RegisteredUserLocationId, RestorauntId
我想计算一下键(UserId, CurrentUserLocationId, RegisteredUserLocationId)
的唯一外观数量
例如,如果对(1, 1, 1)
出现一次,我希望停止计数并将其包含在最终结果中。所以每一对独一无二的对我只需要数一次。在
我尝试使用groupby(['col1', 'col2', 'col3']).size()
,但是这会计算所有记录。我将使用代码的数据集有十亿条记录。在
有没有一种内在的方式来完成我要做的事情?或者更准确地说,做这种计数最快的方法是什么?在
如果需要,请在删除重复项之前复制数据帧,并且在只调用要成为唯一组合的列中调用重复数据帧时。在
相关问题 更多 >
编程相关推荐