随着时间的推移，我在做什么呢？

data = { 'baseline': [(hits, value, day) for hits, value, day in last_thirty_days('baseline')], 'browser': { 'mozilla': [(hits, value, day) for hits, value, day in last_thirty_days('browser', 'mozilla')], ... etc ... } } ... etc ...

# Runs after each (hits, value, date) tuple has been grouped # into corresponding "plot points", as they would appear on a graph pp = PlotPoint(property, date, hits, value) pp.epc = float(pp.value/pp.hits) if pp.hits else 0 # Finds PlotPoint('baseline', date) # if pp = PlotPoint('firefox', '1-1-10') # then pp.baseline == PlotPoint('baseline', '1-1-10') baseline = pp.baseline() if baseline.hits == 0: volume_ratio = 0 else: volume_ratio = round(100*pp.hits/baseline.hits) value_ratio = baseline.epc - pp.epc # Make up a significance value -- # e.g. (10% of visitors * ($1 delta from baseline))^2 pp.significance = math.sqrt(volume_ratio * value_ratio **2) # OK, we have values for each plotpoint, now sum them up # to get values for the whole property (over a 30day period) pps = property.plotpoint_set.all() property.hits = sum([p.hits for p in pps]) property.value = sum([p.value for p in pps]) property.epc = property.value/property.hits value_delta = baseline.epc - property.epc # Make up a significance for the Property, based on each point's significance property.significance = math.log(sum( [sss.significance**2 for sss in pps] )*abs(value_delta)+1)

1条回答

网友

1楼 · 发布于 2024-05-23 15:32:00

AFAIK，numpy/scipy中提供的统计测试是相当基本的。您可能需要研究R，这是一种或多或少专用于统计的语言，并且有很多高级函数可用。在

另外，我不认为马诺瓦真的是你想做的。MANOVA是指当你有几个相互作用的因变量时。这只是一个方差分析。在

在R中可以做什么的示例：

bybrowser = lm(value ~ browser, data=visitors)
anova(bybrowser)
byreferrer = lm(value ~ referrer, data=visitors)
anova(byreferrer)
byreferrerandbrowser = lm(value ~ browser * referrer, data=visitors)
anova(byreferrerandbrowser)

请注意，这一切都假设您的值是正态分布的。您应该检查一下这个假设（hist(visitors$value)是个好的开始）。如果它们不是，要么找到一种方法使它们正常化（试着记录），要么使用适当的非参数测试。在

哦，最后，如果你想得到统计方面的建议，有一个姐妹网站专门为你服务：https://stats.stackexchange.com/

相关问题更多 >

编程相关推荐

热门问题

热门文章