规范化分组DataFrame的方法: 以组的子集平均值为准

df = pd.DataFrame({'Type' : ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], 'Condition' : ['Tx', 'CT', 'Tx', 'CT', 'Tx', 'CT', 'Tx', 'CT'], 'Var1' : np.random.randn(8), 'Var2' : np.random.randn(8)}) print(df) Condition Type Var1 Var2 Var1_Norm Var2_Norm 0 Tx A -1.555886 -0.454512 3.290695 -1.059712 1 CT A 0.820324 0.357123 -1.734983 0.832645 2 Tx A -0.355758 0.807324 0.752426 1.882305 3 CT A -0.799936 1.005673 1.691862 2.344762 4 Tx B -0.253152 -0.585186 0.234666 6.790024 5 CT B -0.672658 0.851191 0.623540 -9.876536 6 Tx B -1.768877 -0.083506 1.639711 0.968933 7 CT B -1.620407 -0.527232 1.502083 6.117579

df[['Var1_Norm', 'Var2_Norm']] = df.groupby(['Type']).transform(lambda x: x/x[x.Condition == 'CT'].mean()) AttributeError: ("'Series' object has no attribute 'Condition'", 'occurred at index Condition')

df[['Var1_Norm', 'Var2_Norm']] = df[['Var1', 'Var2']] for t in df.Type.unique(): ct_mean = df.loc[(df.Type == t) & (df.Condition == 'CT'),['Var1_Norm', 'Var2_Norm']].mean() df.loc[df.Type == t,['Var1_Norm', 'Var2_Norm']] = df.loc[df.Type == t,['Var1_Norm', 'Var2_Norm']].div(ct_mean)

1条回答

网友

1楼 · 发布于 2024-04-23 06:41:17

您可以使用apply方法而不是transform。在

groupby方法transform传递一个序列并期望返回一个序列，而apply传递一个dataframe，并期望返回一个dataframe或一个序列（更详细地解释here）。这将允许您检查条件，因为您可以访问函数中的相关列：

df[['Var1_Norm', 'Var2_Norm']] = df.groupby(['Type']).apply(
    lambda x: x[['Var1', 'Var2']] / x.loc[x['Condition'] == 'CT', ['Var1', 'Var2']].mean())

print(df)

结果：

^{pr2}$

当然，您可以将其推广到任意数量的列上，甚至可以创建一个基于给定条件生成函数的函数生成器。在

相关问题更多 >

编程相关推荐

热门问题

热门文章