二进制数据集的特征选择(分类)

2024-04-16 17:57:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据集有32个分类变量和一个数字连续变量(销售额)

首先,我用一个热编码将分类变量转换为二进制(警察局的傻瓜)现在我有1294列,因为每个列都有几个分类变量。在

现在我想在使用任何降维技术之前对它们进行缩减。在

  1. 选择最有效变量的最佳选择是什么?

  2. 例如,一个分类变量有两个答案“yes”和“no”。有没有可能“是”栏有重要意义而“否”栏没有什么可解释的?你会放弃这个问题(“是”和“否”列)还是只删除“否”列?

提前谢谢。在


Tags: 数据no答案编码二进制分类数字技术
1条回答
网友
1楼 · 发布于 2024-04-16 17:57:59

sklearn上,您可以使用sklearn.feature_selection.SelectFromModel,它使您能够使一个模型适合您的所有特性,并且只选择在该模型中更重要的特性,例如RandomForest。然后,get_support()方法将为您提供重要的特性。在

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

clf = RandomForestClassifier()
sfm = SelectFromModel(clf)
sfm.fit(X,y)

sfm.get_support() 

相关问题 更多 >