我的数据符合逻辑回归模型。想象一下,我有四个特征:1)被试接受的条件是什么;2)被试是否有任何关于被试现象的先验知识/背景(实验后问卷中的二元反应);3)被试在实验任务上花费的时间;4)被试的年龄。我试图预测参与者最终选择的是方案A还是方案B。我的logistic回归用clf.coef_
输出以下特征系数:
[[-0.68120795 -0.19073737 -2.50511774 0.14956844]]
如果选项A是我的正类,那么这个输出是否意味着特征3是二进制分类中最重要的特征,并且与选择选项A的参与者有负关系(注意:我没有规范化/重新缩放我的数据)?我想确保我对系数的理解,以及从中提取的信息是正确的,这样我就不会在分析中做出任何概括或错误的假设。
谢谢你的帮助!
你走对了路。如果一切都是一个非常相似的量级,一个较大的pos/neg系数意味着更大的影响,所有的东西都是相等的。
但是,如果数据没有标准化,Marat是正确的,因为系数的大小没有任何意义(没有上下文)。例如,可以通过将度量单位更改为大或小来获得不同的系数。
我看不出这里是否包含了非零截距,但请记住,逻辑回归系数实际上是比值比,您需要将它们转换为概率,以获得更直接的解释。
请查看此页以获得良好的解释: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/
相关问题 更多 >
编程相关推荐