基于regs的回归模型中变量组合的选择

2条回答

网友

1楼 · 编辑于 2024-06-07 06:06:30

如果我可以补充一下，您可能想看看Python包mlxtend，http://rasbt.github.io/mlxtend。在

它是一个具有几个正向/反向逐步回归算法的包，同时仍然使用sklearn的回归器/选择器。在

网友

2楼 · 编辑于 2024-06-07 06:06:30

没有黄金标准来解决这个问题，你是对的，选择每一个组合在计算上是不可行的，尤其是有49个变量。一种方法是根据用户指定的p值标准（这是您提到的统计相关标准），通过添加/删除变量来实现向前或向后选择。对于使用statsmodels的python实现，请查看以下链接：

其他“统计有效性”较低的方法是定义模型评估指标（例如，r平方、均方误差等），并使用变量选择方法（如套索、随机森林、遗传算法等）来识别优化选择指标的变量集。我发现，在实践中，将这些技术组合在投票类型的方案中效果最好，因为不同的技术对某些类型的数据效果更好。从sklearn查看下面的链接，查看一些可以用数据快速编写代码的选项：

技术概述：http://scikit-learn.org/stable/modules/feature_selection.html
逐步过程：http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html
根据型号选择最佳功能：http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html

如果你准备好了，我会尝试一些技巧，看看答案是否集中在同一组特性上，这将使你对变量之间的关系有一些了解。在

相关问题更多 >

编程相关推荐

热门问题

热门文章