Pandas：按列值删除准重复

2条回答

网友

1楼 · 编辑于 2024-04-24 00:32:15

您可以按year, month, day对数据帧排序，然后从每个name中选取第一行：

df.sort_values(by = ['year', 'month', 'day']).groupby('name').first()

#   month   day year
# name          
# john  1   1   2016
#sally  3   5   2016

数据：

df = pd.DataFrame([['john', '1', '1', '2016'],
                   ['john', '1', '10', '2016'],
                   ['sally', '3', '5', '2016'],
                   ['sally', '4', '1', '2016']], 
                   columns = ['name', 'month', 'day', 'year'])

网友

2楼 · 编辑于 2024-04-24 00:32:15

选项1 使用pd.to_datetime解析['year'、'month'、'day']列。
groupby('name')然后采取first

df['date'] = pd.to_datetime(df[['year', 'month', 'day']])
df.sort_values(['name', 'date']).groupby('name').first()

选项2
相同的pd.to_datetime用法。
groupby('name')使用idxmin查找最小日期。你知道吗

df['date'] = pd.to_datetime(df[['year', 'month', 'day']])
df.ix[df.groupby('name').date.idxmin()]

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas：按列值删除准重复

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >