为什么statsmodels和R的logistic回归结果不同？问题的回答

为什么statsmodels和R的logistic回归结果不同？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图比较python的statsmodels和R中的logistic回归实现 Python版本： <pre><code>import statsmodels.api as sm import pandas as pd import pylab as pl import numpy as np df = pd.read_csv("http://www.ats.ucla.edu/stat/data/binary.csv") df.columns = list(df.columns)[:3] + ["prestige"] # df.hist() # pl.show() dummy_ranks = pd.get_dummies(df["prestige"], prefix="prestige") cols_to_keep = ["admit", "gre", "gpa"] data = df[cols_to_keep].join(dummy_ranks.ix[:, "prestige_2":]) data["intercept"] = 1.0 train_cols = data.columns[1:] logit = sm.Logit(data["admit"], data[train_cols]) result = logit.fit() result.summary2() </code></pre> 结果： ^{pr2}$ R版本： <pre><code>data = read.csv("http://www.ats.ucla.edu/stat/data/binary.csv", head=T) require(reshape2) data1 = dcast(data, admit + gre + gpa ~ rank) require(dplyr) names(data1)[4:7] = paste("rank", 1:4, sep="") data1 = data1[, -4] summary(glm(admit ~ gre + gpa + rank2 + rank3 + rank4, family=binomial, data=data1)) </code></pre> 结果： <pre><code>Call: glm(formula = admit ~ gre + gpa + rank2 + rank3 + rank4, family = binomial, data = data1) Deviance Residuals: Min 1Q Median 3Q Max -1.5133 -0.8661 -0.6573 1.1808 2.0629 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -4.184029 1.162421 -3.599 0.000319 *** gre 0.002358 0.001112 2.121 0.033954 * gpa 0.770591 0.343908 2.241 0.025046 * rank2 -0.369711 0.310342 -1.191 0.233535 rank3 -1.015012 0.335147 -3.029 0.002457 ** rank4 -1.249251 0.414416 -3.014 0.002574 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 466.13 on 377 degrees of freedom Residual deviance: 434.12 on 372 degrees of freedom AIC: 446.12 Number of Fisher Scoring iterations: 4 </code></pre> 结果相差很大，例如，秩2的p值分别为0.03和0.2。我想知道造成这种差异的原因是什么？请注意，我为这两个版本创建了虚拟变量，为python版本创建了一个常量列，它在R中自动处理 而且，python似乎快了2倍： <pre><code>################################################## # python timing def test(): for i in range(5000): logit = sm.Logit(data["admit"], data[train_cols]) result = logit.fit(disp=0) import time start = time.time() test() print(time.time() - start) 10.099738836288452 ################################################## # R timing > f = function() for(i in 1:5000) {mod = glm(admit ~ gre + gpa + rank2 + rank3 + rank4, family=binomial, data=data1)} > system.time(f()) user system elapsed 17.505 0.021 17.526 </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

为什么statsmodels和R的logistic回归结果不同？

1 个回答

相关Python问题