二进制数据集的特征选择（分类） - 问答 - Python中文网

二进制数据集的特征选择（分类）

2024-04-16 17:57:59 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我的数据集有32个分类变量和一个数字连续变量（销售额）

首先，我用一个热编码将分类变量转换为二进制(警察局的傻瓜)现在我有1294列，因为每个列都有几个分类变量。在

现在我想在使用任何降维技术之前对它们进行缩减。在

选择最有效变量的最佳选择是什么？
例如，一个分类变量有两个答案“yes”和“no”。有没有可能“是”栏有重要意义而“否”栏没有什么可解释的？你会放弃这个问题（“是”和“否”列）还是只删除“否”列？

提前谢谢。在

Tags：数据 no 答案编码二进制分类数字技术

1条回答

网友

1楼 · 发布于 2024-04-16 17:57:59

在sklearn上，您可以使用sklearn.feature_selection.SelectFromModel，它使您能够使一个模型适合您的所有特性，并且只选择在该模型中更重要的特性，例如RandomForest。然后，get_support()方法将为您提供重要的特性。在

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

clf = RandomForestClassifier()
sfm = SelectFromModel(clf)
sfm.fit(X,y)

sfm.get_support()

相关问题更多 >

编程相关推荐

热门问题

热门文章