Pandas-GroupBy，然后在原始选项卡上合并

pol_dict = {'PID':[1,1,2,2], 'EID':[123,123,123,123], 'PCODE':['GU','GR','GU','GR'], 'PVALUE':[100,50,150,300], 'SI':[400,40,140,140], 'SC':[230,23,213,213], 'EE':[10000,10000,2000,30000], } pol_df = DataFrame(pol_dict) pol_df

EID EE PCODE PID PVALUE SC SI 0 123 10000 GU 1 100 230 400 1 123 10000 GR 1 50 23 40 2 123 2000 GU 2 150 213 140 3 123 30000 GR 2 300 213 140

#create aggregation dataframe poagg_df = pol_df del poagg_df['PID'] po_grouped_df = poagg_df.groupby(['EID','PCODE']) #generate acc level aggregate acc_df = po_grouped_df.agg({ 'PVALUE' : np.sum, 'SI' : lambda x: np.sqrt(np.sum(x * np.exp(x-1))), 'SC' : np.sum, 'EE' : np.sum })

2条回答

网友
1楼 · 编辑于 2024-05-13 21:59:19

从pandas docs：
Transformation: perform some group-specific computations and return a like-indexed object
不幸的是，transform按系列工作，因此您不能像使用agg那样在多个列上执行多个函数，但是transform允许您跳过merge
po_grouped_df = pol_df.groupby(['EID','PCODE']) pol_df['sum_pval'] = po_grouped_df['PVALUE'].transform(sum) pol_df['func_si'] = po_grouped_df['SI'].transform(lambda x: np.sqrt(np.sum(x * np.exp(x-1)))) pol_df['sum_sc'] = po_grouped_df['SC'].transform(sum) pol_df['sum_ee'] = po_grouped_df['EE'].transform(sum) pol_df
结果：
PID EID PCODE PVALUE SI SC EE sum_pval func_si sum_sc sum_ee 1 123 GU 100 400 230 10000 250 8.765549e+87 443 12000 1 123 GR 50 40 23 10000 350 1.805222e+31 236 40000 2 123 GU 150 140 213 2000 250 8.765549e+87 443 12000 2 123 GR 300 140 213 30000 350 1.805222e+31 236 40000
有关详细信息，请查看this SO answer。

网友
2楼 · 编辑于 2024-05-13 21:59:19

默认情况下，groupby输出将分组列作为指示符，而不是列，这就是合并失败的原因。
有两种不同的处理方法，可能最简单的方法是在定义groupby对象时使用as_index参数。
po_grouped_df = poagg_df.groupby(['EID','PCODE'], as_index=False)
那么，合并应该按预期工作。
In [356]: pd.merge(acc_df, pol_df, on=['EID','PCODE'], how='inner',suffixes=('_Acc','_Po')) Out[356]: EID PCODE SC_Acc EE_Acc SI_Acc PVALUE_Acc EE_Po PVALUE_Po \ 0 123 GR 236 40000 1.805222e+31 350 10000 50 1 123 GR 236 40000 1.805222e+31 350 30000 300 2 123 GU 443 12000 8.765549e+87 250 10000 100 3 123 GU 443 12000 8.765549e+87 250 2000 150 SC_Po SI_Po 0 23 40 1 213 140 2 230 400 3 213 140

相关问题更多 >

编程相关推荐

热门问题

热门文章