Pandas数据帧中多列的加权平均数

Class| Student| V1| V2| V3| wb A| Max| 10| 12| 14| 1 A| Ann| 9| 6| 7| 0.9 B| Tom| 6| 7| 10| 0.3 B| Dick| 3| 8| 7| 0.7 C| Dibs| 5| 2| 3| 0.8 C| Mock| 6| 4| 3| 0.6 D| Sunny| 3| 4| 5| 0.9 D| Lock| 8| 3| 6| 1

import pandas as pd import numpy as np def wtdavg(frame, var, wb): d = frame[var] w = frame[wb] return (d * w).sum() / w.sum() df = pd.read_csv('Sample.csv') Matrix = df.groupby(['Class']).apply(wtdavg,var='V2',wb='wb') print(Matrix)

3条回答

网友

1楼 · 编辑于 2024-04-20 13:06:50

#use apply to calculate weighted mean for alll 3 columns in one go.
df2 = df.groupby('Class').apply(lambda x: pd.Series([sum(x.V1*x.wb)/sum(x.wb), sum(x.V2*x.wb)/sum(x.wb), sum(x.V3*x.wb)/sum(x.wb)]))
#rename columns
df2.columns=['V1_M','V2_M','V3_M']

df2
Out[858]: 
           V1_M      V2_M       V3_M
Class                               
A      9.526316  9.157895  10.684211
B      3.900000  7.700000   7.900000
C      5.428571  2.857143   3.000000
D      5.631579  3.473684   5.526316

更新（值列的动态列表，即var_cols）

^{pr2}$

网友

2楼 · 编辑于 2024-04-20 13:06:50

更一般的解决方案：

1.它为没有Student，Class的所有列创建加权平均值：

df2 = df.drop('Student', axis=1) \
        .groupby('Class') \
        .apply(lambda x: x.drop(['Class', 'wb'], axis=1).mul(x.wb, 0).sum() / (x.wb).sum()) \
        .add_suffix('_M') \
        .reset_index()
print (df2)
  Class      V1_M      V2_M       V3_M
0     A  9.526316  9.157895  10.684211
1     B  3.900000  7.700000   7.900000
2     C  5.428571  2.857143   3.000000
3     D  5.631579  3.473684   5.526316

也可以为加权平均值定义列：

^{pr2}$

更一般的方法是按^{}过滤所有以V开头的列：

df2 = df.groupby('Class') \
        .apply(lambda x: x.filter(regex='^V').mul(x.wb, 0).sum() / (x.wb).sum()) \
        .add_suffix('_M') \
        .reset_index()
print (df2)
  Class      V1_M      V2_M       V3_M
0     A  9.526316  9.157895  10.684211
1     B  3.900000  7.700000   7.900000
2     C  5.428571  2.857143   3.000000
3     D  5.631579  3.473684   5.526316

网友

3楼 · 编辑于 2024-04-20 13:06:50

import pandas as pd
import numpy as np

def wtdavg(frame, var, wb):
  d = frame[var]
  w = frame[wb]
  return (d * w).sum() / w.sum()

df = pd.read_csv('Sample.csv')
temp_df = pd.DataFrame()
for column in df.columns:
    if df[column].dtype == np.int64:
        temp_S = pd.DataFrame( df[column].groupby(df['Class']).mean())
        frames = [temp_df, temp_S]
        temp_df = pd.concat(frames, axis = 'columns')
print temp_df

相关问题更多 >

编程相关推荐

热门问题

热门文章