你好,老忠实社区
这可能是一个想法,因为我几乎找不到任何材料。在
问题
我有一组新南威尔士州议会所犯罪行的数据集,并将其与议会的平均房价合并。我现在正在寻找一个线性回归,试图预测附近地区的房价。问题是,我有49宗罪行,而且只想在我的模型中使用最好的(从统计学上讲)。在
我对所有变量和一些变量(使用相关性)进行了回归分析,得到了0.23-0.38的结果,但我希望尽可能完善这一点-当然,如果有办法的话。在
我已经考虑过在每一个可能的组合上循环,但根据谷歌的说法,这最终会减少几百万。在
那么,我的朋友们,我如何用python处理这个数据帧来获得最好的列呢?在
Tags:
如果我可以补充一下,您可能想看看Python包
mlxtend
,http://rasbt.github.io/mlxtend。在它是一个具有几个正向/反向逐步回归算法的包,同时仍然使用
sklearn
的回归器/选择器。在没有黄金标准来解决这个问题,你是对的,选择每一个组合在计算上是不可行的,尤其是有49个变量。一种方法是根据用户指定的p值标准(这是您提到的统计相关标准),通过添加/删除变量来实现向前或向后选择。对于使用statsmodels的python实现,请查看以下链接:
其他“统计有效性”较低的方法是定义模型评估指标(例如,r平方、均方误差等),并使用变量选择方法(如套索、随机森林、遗传算法等)来识别优化选择指标的变量集。我发现,在实践中,将这些技术组合在投票类型的方案中效果最好,因为不同的技术对某些类型的数据效果更好。从sklearn查看下面的链接,查看一些可以用数据快速编写代码的选项:
如果你准备好了,我会尝试一些技巧,看看答案是否集中在同一组特性上,这将使你对变量之间的关系有一些了解。在
相关问题 更多 >
编程相关推荐