计算组内特定值的差异

import pandas as pd data = { 'experiment':['exp_1','exp_1','exp_1','exp_2','exp_2','exp_3','exp_3','exp_3','exp_3'], 'variation':['control','variation_1','variation_2','control','variation_1','control','variation_1','variation_2','variation_3'], 'revenue': [100,120,155,50,95,300,500,350,610] } df = pd.DataFrame(data,columns=['experiment','variation','revenue']) In [16]: df Out[16]: experiment variation revenue 0 exp_1 control 100 1 exp_1 variation_1 90 2 exp_1 variation_2 155 3 exp_2 control 50 4 exp_2 variation_1 95 5 exp_3 control 300 6 exp_3 variation_1 500 7 exp_3 variation_2 250 8 exp_3 variation_3 610

In [17]: df Out[17]: experiment variation revenue diffs 0 exp_1 control 100 NaN 1 exp_1 variation_1 90 -10 2 exp_1 variation_2 155 55 3 exp_2 control 50 NaN 4 exp_2 variation_1 95 45 5 exp_3 control 300 NaN 6 exp_3 variation_1 500 200 7 exp_3 variation_2 250 -50 8 exp_3 variation_3 610 310

2条回答

网友

1楼 · 编辑于 2024-05-14 00:24:52

IIUC，我们可以使用transform和fillna

df['diff']=np.nan

df['diff']=df.loc[df.variation!='control','diff'].\
                fillna(df.revenue-df.groupby('experiment').revenue.transform('first'))
df
Out[498]: 
  experiment    variation  revenue   diff
0      exp_1      control      100    NaN
1      exp_1  variation_1       90  -10.0
2      exp_1  variation_2      155   55.0
3      exp_2      control       50    NaN
4      exp_2  variation_1       95   45.0
5      exp_3      control      300    NaN
6      exp_3  variation_1      500  200.0
7      exp_3  variation_2      250  -50.0
8      exp_3  variation_3      610  310.0

网友

2楼 · 编辑于 2024-05-14 00:24:52

我可以通过创建一个只包含variation==control行的新数据帧来完成这个任务，然后将其合并回原始数据帧并减去结果列

controls = df[df.variation == 'control'][['experiment','revenue']]
merged = pd.merge(controls,df,on='experiment',how='outer',suffixes=['_control',''])
df['diffs'] = merged['revenue'] - merged['revenue_control']

相关问题更多 >

编程相关推荐

热门问题

热门文章