Pandas Multiindex Groupby聚合列的值来自另一列

2024-06-16 10:01:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个带有multiindex的pandas dataframe,我想在其中聚合重复的键行,如下所示:

import numpy as np
import pandas as pd
df = pd.DataFrame({'S':[0,5,0,5,0,3,5,0],'Q':[6,4,10,6,2,5,17,4],'A':
                  ['A1','A1','A1','A1','A2','A2','A2','A2'],
                  'B':['B1','B1','B2','B2','B1','B1','B1','B2']})
df.set_index(['A','B'])

    Q  S
A  B        
A1 B1   6  0
   B1   4  5
   B2  10  0
   B2   6  5
A2 B1   2  0
   B1   5  3
   B1  17  5
   B2   4  0

我想按这个数据帧分组来聚合Q值(sum),并保留与Q值的最大行相对应的S值,从而得出:

^{pr2}$

我尝试了以下方法,但没用:

df.groupby(by=['A','B']).agg({'Q':'sum','S':df.S[df.Q.idxmax()]})

有什么提示吗?在


Tags: importnumpya2dataframepandasdfa1as
2条回答

一种方法是使用aggapply、和{}:

g = df.groupby(['A','B'], group_keys=False)
g.apply(lambda x: x.loc[x.Q == x.Q.max(),['S']]).join(g.agg({'Q':'sum'}))

输出:

^{pr2}$

有一个办法

In [1800]: def agg(x):
      ...:     m = x.S.iloc[np.argmax(x.Q.values)]
      ...:     return pd.Series({'Q': x.Q.sum(), 'S': m})
      ...:

In [1801]: df.groupby(['A', 'B']).apply(agg)
Out[1801]:
        Q  S
A  B
A1 B1  10  0
   B2  16  0
A2 B1  24  5
   B2   4  0

相关问题 更多 >