我正在研究大数据,我想找到重要的特性。 因为我是一个生物学家,所以请原谅我缺乏知识。
我的数据集有大约5000个属性和500个样本,其中有二进制类0和1。此外,数据集是有偏差的-大约400 0s和100 1s的样本。 我想找出一些特征,这些特征在决定阶级时影响最大。
A1 A2 A3 ... Gn Class
S1 1.0 0.8 -0.1 ... 1.0 0
S2 0.8 0.4 0.9 ... 1.0 0
S3 -1.0 -0.5 -0.8 ... 1.0 1
...
在前面的问题中我得到了一些建议,我试图找到属性系数和重要特征一样高的属性,使用了L1惩罚的套索回归,因为它使得不重要特征的得分为0。
我用scikit学习库做这项工作。
所以,我的问题是这样的。
我能用套索回归法来计算二元类吗?如果不是,使用Logistic回归是否是一个好的解决方案,尽管它不使用L1惩罚?
如何使用LassoCV找到alpha的最佳值?文件上说拉索夫支持,但我找不到函数。
还有其他好的分类方法吗?
非常感谢。
目前没有回答
相关问题 更多 >
编程相关推荐