我有一个表,我在格式化的地址字符串的文本列上分组,因此分组操作需要花费大量的时间来完成。然后,我在原始的未分组数据框中创建了两列,其中的值是从应用于groupby组的函数中获得的。一列是唯一的重复ID,用于标识未分组表中的相同分组行,另一列包含组中由逗号分隔的所有行ID。代码如下所示:
streetformattable['Duplicate_ID'] = streetformattable.groupby('STREETREFORMAT', sort=False).grouper.group_info[0] + DupeID_Increment
streetformattable['LinkedIDs'] = streetformattable.groupby('STREETREFORMAT')['ID'].transform(lambda x: ','.join(x))
注意:我一直在使用Pandas 0.18.1,因此我必须使用上述解决方法来获得每个组的递增唯一ID
在这个脚本中有许多要分组的表,每个表都需要这两列。是否有一种方法可以只执行一个分组操作并创建两个列
目前没有回答
相关问题 更多 >
编程相关推荐