Pandas：删除重复记录，同时将其旧值保留在dataframe中以供引用

index stop_id stop_name stop_lat stop_lon stop_id2 0 A12 Some St 40.889248 -73.898583 None 1 A14 Some St 40.889758 -73.908573 None 2 B09 Some St 40.788924 -74.846576 None 3 A22 Some St 40.889248 -73.898583 None

d={'A12':['Some St', 40.889248, -73.898583, None],'A14': ['Some St', 40.889758, -73.908573, None],'B09':['Some St, 40.788924,-74.846576, None], 'A22':['Some St', 40.889248, -73.898583, None]} if d['A12'][1]+d['A12'][2]==d['A22'][1]+d['A22'][2]: del d['A22'] d['A12'][-1]='A22'

2条回答

网友

1楼 · 编辑于 2024-06-16 09:37:35

获取重复掩码

cols = ['stop_lat', 'stop_lon']
dups = df.duplicated(subset=cols)

带掩码的子集df

^{pr2}$

重复数据可以自己复制

first_dup = df[dups].drop_duplicates(subset=cols)
first_dup = first_dup.set_index(cols).stop_id

相应分配

nodups.loc[first_dup.index, 'stop_id2'] = first_dup
nodups

网友

2楼 · 编辑于 2024-06-16 09:37:35

new_df = df[df.duplicated(subset = ['stop_lat', 'stop_lon'], keep='first')]

duplicates_df = df[df.duplicated(subset = ['stop_lat', 'stop_lon'], keep = 'last')][['stop_lat', 'stop_lon', 'stop_id']]

new_df.merge(duplicates_df, how='left', on=['stop_lat, 'stop_lon'])

相关问题更多 >

编程相关推荐

热门问题

热门文章