计算组内特定值的差异

2024-04-23 17:43:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要为成千上万的模拟实验计算组内的差异。以下是数据的简化版本:

import pandas as pd

data = {
    'experiment':['exp_1','exp_1','exp_1','exp_2','exp_2','exp_3','exp_3','exp_3','exp_3'],
    'variation':['control','variation_1','variation_2','control','variation_1','control','variation_1','variation_2','variation_3'],
    'revenue': [100,120,155,50,95,300,500,350,610]
}
df = pd.DataFrame(data,columns=['experiment','variation','revenue'])

In [16]: df
Out[16]:
  experiment    variation  revenue
0      exp_1      control      100
1      exp_1  variation_1       90
2      exp_1  variation_2      155
3      exp_2      control       50
4      exp_2  variation_1       95
5      exp_3      control      300
6      exp_3  variation_1      500
7      exp_3  variation_2      250
8      exp_3  variation_3      610

请注意,每个实验并没有固定数量的变化——可以只进行a/B测试,也可以进行a/B/C/D测试

我们的目标是通过比较每个实验中的每个变化和控制来计算差异。这将给出示例数据的以下结果:

In [17]: df
Out[17]:
  experiment    variation  revenue  diffs
0      exp_1      control      100    NaN
1      exp_1  variation_1       90    -10
2      exp_1  variation_2      155     55
3      exp_2      control       50    NaN
4      exp_2  variation_1       95     45
5      exp_3      control      300    NaN
6      exp_3  variation_1      500    200
7      exp_3  variation_2      250    -50    
8      exp_3  variation_3      610    310

This answer非常接近,但它是每个时间点的累积差异,而不是与每个组中的第一个值进行比较


Tags: 数据in版本dfdata差异nanout
2条回答

IIUC,我们可以使用transformfillna

df['diff']=np.nan

df['diff']=df.loc[df.variation!='control','diff'].\
                fillna(df.revenue-df.groupby('experiment').revenue.transform('first'))
df
Out[498]: 
  experiment    variation  revenue   diff
0      exp_1      control      100    NaN
1      exp_1  variation_1       90  -10.0
2      exp_1  variation_2      155   55.0
3      exp_2      control       50    NaN
4      exp_2  variation_1       95   45.0
5      exp_3      control      300    NaN
6      exp_3  variation_1      500  200.0
7      exp_3  variation_2      250  -50.0
8      exp_3  variation_3      610  310.0

我可以通过创建一个只包含variation==control行的新数据帧来完成这个任务,然后将其合并回原始数据帧并减去结果列

controls = df[df.variation == 'control'][['experiment','revenue']]
merged = pd.merge(controls,df,on='experiment',how='outer',suffixes=['_control',''])
df['diffs'] = merged['revenue'] - merged['revenue_control']

相关问题 更多 >