如何在scikitlearn上对分类进行多层次编码？ - 问答 - Python中文网

如何在scikitlearn上对分类进行多层次编码？

2024-04-26 09:32:30 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

伙计们。我有一个大的数据集（60k个样本，50个特征）。其中一个名字和我很相关。有许多工作名称，我想编码，以适应一些模型，如线性回归或SVCs。但是，我不知道如何处理它们。在

我尝试使用pandas虚拟变量和scikitlearnOne-hot Encoding，但它产生了许多我在测试集中可能没有遇到的特性。我试图使用scikit学习LabelEncoder()，但是我在编码变量float() > str() error时也遇到了一些错误。在

你们有什么建议我来处理这几个分类的特性？谢谢大家。在

Tags：数据模型名称 pandas 编码线性特征特性

2条回答

网友

1楼 · 编辑于 2024-04-26 09:32:30

另一个解决方案是，可以用目标变量对范畴变量进行二元分析。你将得到的结果是每一级如何影响目标。一旦你得到这一点，你就可以合并那些对数据有类似影响的级别。这将有助于你减少层数，以及每口井都会产生重大影响。在

网友

2楼 · 编辑于 2024-04-26 09:32:30

有很多方法可以达到你想要的效果。我个人认为HashingVectorizer是健壮的。您可能最想尝试它，尤其是当您有许多（可能是稀疏的）特性时。另一种选择是DictVectorizer。在

看看这里的例子http://scikit-learn.org/stable/modules/feature_extraction.html和http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html。你可以很容易地修改它们来达到你的目的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章