基于某列最大值过滤pandas DataFrame
我有一个数据表(DataFrame),里面的索引有重复的值。我想把这个数据表过滤一下,只显示每个索引的一个实例,方法是选择在另一个列中值最大的那一行。例如,我的数据表长这样:
df:
Product ID Store Sales
1 A 50
1 B 200
1 C 20
2 A 400
2 B 10
3 A 200
4 A 50
4 B 100
4 C 500
我想把这个数据过滤成这样:
df2:
Product ID Store Sales
1 B 200
2 A 400
3 A 200
4 C 500
有没有人能给我一些建议,如何在pandas中处理这个问题?
非常感谢你的时间 -
1 个回答
19
你可以先对“产品ID”进行分组,然后在“销售”这一列上使用 idxmax
。这样做会生成一个序列,里面包含了最高销售额的索引。接着,我们可以用这些索引值来在原始的数据表中找到对应的行,使用 iloc
来实现。
In [201]:
df.iloc[df.groupby('Product ID')['Sales'].agg(pd.Series.idxmax)]
Out[201]:
Product_ID Store Sales
1 1 B 200
3 2 A 400
5 3 A 200
8 4 C 500