在Python中进行收入的AB测试

Question

我正在进行一个AB测试，目的是比较不同网站版本的收入。

我们通常的方法是使用t检验，但我觉得这不太适用，因为收入不能用二项分布来建模。不过，我读到了关于自助法（bootstrapping）的内容，于是写了以下代码：

import numpy as np
import scipy.stats as stats
import random

def resampler(original_array, number_of_samples):
    sample_array = np.zeros(number_of_samples)
    choice = random.choice
    for i in range(number_of_samples):
        sample_array[i] = sum([choice(original_array) for _ in range(len(original_array))])

    y = stats.normaltest(sample_array)
    if y[1] > 0.001:
        print y
        new_y = resampler(original_array, number_of_samples * 2)
        y = new_y
    return sample_array

简单来说，就是从“收入向量”中随机抽样（这个向量里大部分是零，只有那些有转化的访客才有收入），然后把这些结果相加，直到得到一个正态分布。

我可以对两个测试组都进行这个操作，这样就得到了两个符合正态分布的数量，可以用来进行t检验。通过使用scipy.stats.ttest_ind，我得到了看起来还不错的结果。

不过，我想知道在cookie分配上运行这个程序会有什么效果（我预期每组能看到50%的cookie）。在这里，我得到了一个相当意外的结果——根据以下代码：

x = [272898,389076,61091,65251,10060,1468815,216014,25863,42421,476379,73761]
y = [274253,387941,61333,65020,10056,1466908,214679,25682,42873,474692,73837]
print stats.ttest_ind(x,y)

我得到的输出是：(0.0021911476165975929, 0.99827342714956546)

这个结果一点也不显著（我觉得我理解得没错吧？）

但是，当我运行这段代码：

for i in range(1000, 100000, 5000):
    one_array = resampler(x,i)
    two_array = resampler(y,i)
    t_value, p_value = stats.ttest_ind(one_array, two_array)
    t_value_array.append(t_value)
    p_value_array.append(p_value)

print np.mean(t_value_array)
print np.mean(p_value_array)

我得到的是：

0.642213492773 0.490587258892

我不太确定该如何解读这些数字——据我所知，我是从实际的cookie分配中反复生成正态分布（数组中的每个数字代表一个不同的网站）。在这些情况下，我对两个分布进行了t检验，并得到了t统计量和p值。

这样做算不算合理？我之所以多次运行这些测试，是因为在不这样做的情况下，p值和t统计量的变化太大了。

我是不是漏掉了什么明显的测试方法？

谢谢，

马特

附言：

我们拥有的数据：

网站1：测试组1：唯一cookie：收入

网站1：测试组2：唯一cookie：收入

网站2：测试组1：唯一cookie：收入

网站2：测试组2：唯一cookie：收入

等等。

我们想要的结果：

测试组x以z%的把握击败测试组y

（零假设是测试组1 = 测试组2）

附加要求：

以上结果在每个网站和整体的基础上都要有。

t-test normal distribution hypothesis testing statistical significance ab testing bootstrapping cookie allocation revenue analysis

在Python中进行收入的AB测试

1 个回答

撰写回答