二值分类中用Lasso回归寻找最优特征

2024-05-23 17:40:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究大数据,我想找到重要的特性。 因为我是一个生物学家,所以请原谅我缺乏知识。

我的数据集有大约5000个属性和500个样本,其中有二进制类0和1。此外,数据集是有偏差的-大约400 0s和100 1s的样本。 我想找出一些特征,这些特征在决定阶级时影响最大。

  A1   A2   A3  ... Gn Class
S1    1.0  0.8 -0.1 ... 1.0 0 
S2    0.8  0.4  0.9 ... 1.0 0
S3   -1.0 -0.5 -0.8 ... 1.0 1
...

在前面的问题中我得到了一些建议,我试图找到属性系数和重要特征一样高的属性,使用了L1惩罚的套索回归,因为它使得不重要特征的得分为0。

我用scikit学习库做这项工作。

所以,我的问题是这样的。

  1. 我能用套索回归法来计算二元类吗?如果不是,使用Logistic回归是否是一个好的解决方案,尽管它不使用L1惩罚?

  2. 如何使用LassoCV找到alpha的最佳值?文件上说拉索夫支持,但我找不到函数。

  3. 还有其他好的分类方法吗?

非常感谢。


Tags: 数据a2l1属性a1二进制特征特性