基于某列最大值过滤pandas DataFrame

14 投票

1 回答

19213 浏览

提问于 2025-04-18 15:35

我有一个数据表（DataFrame），里面的索引有重复的值。我想把这个数据表过滤一下，只显示每个索引的一个实例，方法是选择在另一个列中值最大的那一行。例如，我的数据表长这样：

df:

Product ID     Store     Sales
    1            A         50
    1            B        200
    1            C         20
    2            A        400
    2            B         10
    3            A        200
    4            A         50
    4            B        100
    4            C        500

我想把这个数据过滤成这样：

df2:

Product ID     Store     Sales
    1            B        200
    2            A        400
    3            A        200
    4            C        500

有没有人能给我一些建议，如何在pandas中处理这个问题？

非常感谢你的时间 -

数据处理数据过滤 pandas dataframe 最大值选择索引去重

1 个回答

你可以先对“产品ID”进行分组，然后在“销售”这一列上使用 idxmax。这样做会生成一个序列，里面包含了最高销售额的索引。接着，我们可以用这些索引值来在原始的数据表中找到对应的行，使用 iloc 来实现。

In [201]:

df.iloc[df.groupby('Product ID')['Sales'].agg(pd.Series.idxmax)]
Out[201]:
   Product_ID Store  Sales
1           1     B    200
3           2     A    400
5           3     A    200
8           4     C    500

回答于 2025-04-18 由 Python大师

分享举报

基于某列最大值过滤pandas DataFrame

1 个回答

撰写回答