Python和R中的卡方检验p值不同

3 投票

1 回答

2353 浏览

提问于 2025-04-18 15:17

作为一个经常使用R语言的用户，我正在学习用Python进行分析。我从卡方检验开始，做了以下操作：

R

> chisq.test(matrix(c(10,20,30,40),nrow = 2))$p.value               # test1
[1] 0.5040359
> chisq.test(matrix(c(1,2,3,4),nrow = 2))$p.value                   # test2
[1] 1
Warning message:
In chisq.test(matrix(c(1, 2, 3, 4), nrow = 2)) :
  Chi-squared approximation may be incorrect
> chisq.test(matrix(c(1,2,3,4),nrow = 2),correct = FALSE)$p.value   # test3
[1] 0.7781597
Warning message:
In chisq.test(matrix(c(1, 2, 3, 4), nrow = 2), correct = FALSE) :
  Chi-squared approximation may be incorrect

Python

In [31]:
temp = scipy.stats.chi2_contingency(np.array([[10, 20], [30, 40]]))  # test1
temp[1] # pvalue
Out[31]:
0.50403586645250464
In [30]:
temp = scipy.stats.chi2_contingency(np.array([[1, 2], [3, 4]]))      # test2
temp[1] # pvalue
Out[30]:
0.67260381744151676

对于test1，我很满意，因为Python和R的测试结果很相似。但test2就不一样了，因为R有一个叫correct的参数，我把它从默认值改了，结果生成的p值就不一样了。

我的代码有什么问题吗？我应该相信哪个结果呢？

更新 01

谢谢大家的反馈。我知道卡方检验不应该用于值小于5的单元格，应该用费舍尔精确检验。我的疑问是，为什么R和Python给出的p值差异这么大。

统计分析数据科学 R语言 p值参数调整卡方检验费舍尔检验

1 个回答

除了单元格数量小于5的问题外，我的经验是，R和Python这两种统计测试的实现通常默认会启用一些修正（这些修正是为了改进基本方法的）。如果把这些修正关掉，scipy的p值就会和R的结果一致：

scipy.stats.chi2_contingency(np.array([[1, 2], [3, 4]]), correction=False)

Out[6]: 
# p-val = 0.778159
(0.079365079365079388, 0.77815968617616582, 1, array([[ 1.2,  1.8],
        [ 2.8,  4.2]]))

同样的情况也适用于t检验等，默认设置可能会假设方差相等，也可能不会。总的来说，每当你发现不同统计软件的输出结果对不上时，可以先看看默认的参数设置，看看是否需要开启或关闭这些调整。

回答于 2025-04-18 由 Python大师

分享举报

Python和R中的卡方检验p值不同

R

Python

更新 01

1 个回答

撰写回答