我需要为成千上万的模拟实验计算组内的差异。以下是数据的简化版本:
import pandas as pd
data = {
'experiment':['exp_1','exp_1','exp_1','exp_2','exp_2','exp_3','exp_3','exp_3','exp_3'],
'variation':['control','variation_1','variation_2','control','variation_1','control','variation_1','variation_2','variation_3'],
'revenue': [100,120,155,50,95,300,500,350,610]
}
df = pd.DataFrame(data,columns=['experiment','variation','revenue'])
In [16]: df
Out[16]:
experiment variation revenue
0 exp_1 control 100
1 exp_1 variation_1 90
2 exp_1 variation_2 155
3 exp_2 control 50
4 exp_2 variation_1 95
5 exp_3 control 300
6 exp_3 variation_1 500
7 exp_3 variation_2 250
8 exp_3 variation_3 610
请注意,每个实验并没有固定数量的变化——可以只进行a/B测试,也可以进行a/B/C/D测试
我们的目标是通过比较每个实验中的每个变化和控制来计算差异。这将给出示例数据的以下结果:
In [17]: df
Out[17]:
experiment variation revenue diffs
0 exp_1 control 100 NaN
1 exp_1 variation_1 90 -10
2 exp_1 variation_2 155 55
3 exp_2 control 50 NaN
4 exp_2 variation_1 95 45
5 exp_3 control 300 NaN
6 exp_3 variation_1 500 200
7 exp_3 variation_2 250 -50
8 exp_3 variation_3 610 310
This answer非常接近,但它是每个时间点的累积差异,而不是与每个组中的第一个值进行比较
IIUC,我们可以使用
transform
和fillna
我可以通过创建一个只包含variation==control行的新数据帧来完成这个任务,然后将其合并回原始数据帧并减去结果列
相关问题 更多 >
编程相关推荐