基于regs的回归模型中变量组合的选择

2024-06-07 06:06:30 发布

您现在位置:Python中文网/ 问答频道 /正文

你好,老忠实社区

这可能是一个想法,因为我几乎找不到任何材料。在

问题 我有一组新南威尔士州议会所犯罪行的数据集,并将其与议会的平均房价合并。我现在正在寻找一个线性回归,试图预测附近地区的房价。问题是,我有49宗罪行,而且只想在我的模型中使用最好的(从统计学上讲)。在

我对所有变量和一些变量(使用相关性)进行了回归分析,得到了0.23-0.38的结果,但我希望尽可能完善这一点-当然,如果有办法的话。在

我已经考虑过在每一个可能的组合上循环,但根据谷歌的说法,这最终会减少几百万。在

那么,我的朋友们,我如何用python处理这个数据帧来获得最好的列呢?在


Tags: 数据模型朋友线性社区地区材料办法
2条回答

如果我可以补充一下,您可能想看看Python包mlxtendhttp://rasbt.github.io/mlxtend。在

它是一个具有几个正向/反向逐步回归算法的包,同时仍然使用sklearn的回归器/选择器。在

没有黄金标准来解决这个问题,你是对的,选择每一个组合在计算上是不可行的,尤其是有49个变量。一种方法是根据用户指定的p值标准(这是您提到的统计相关标准),通过添加/删除变量来实现向前或向后选择。对于使用statsmodels的python实现,请查看以下链接:

其他“统计有效性”较低的方法是定义模型评估指标(例如,r平方、均方误差等),并使用变量选择方法(如套索、随机森林、遗传算法等)来识别优化选择指标的变量集。我发现,在实践中,将这些技术组合在投票类型的方案中效果最好,因为不同的技术对某些类型的数据效果更好。从sklearn查看下面的链接,查看一些可以用数据快速编写代码的选项:

如果你准备好了,我会尝试一些技巧,看看答案是否集中在同一组特性上,这将使你对变量之间的关系有一些了解。在

相关问题 更多 >