如何在scikitlearn上对分类进行多层次编码?

2024-04-26 09:32:30 发布

您现在位置:Python中文网/ 问答频道 /正文

伙计们。 我有一个大的数据集(60k个样本,50个特征)。其中一个名字和我很相关。有许多工作名称,我想编码,以适应一些模型,如线性回归或SVCs。但是,我不知道如何处理它们。在

我尝试使用pandas虚拟变量和scikitlearnOne-hot Encoding,但它产生了许多我在测试集中可能没有遇到的特性。我试图使用scikit学习LabelEncoder(),但是我在编码变量float() > str() error时也遇到了一些错误。在

你们有什么建议我来处理这几个分类的特性?谢谢大家。在


Tags: 数据模型名称pandas编码线性特征特性
2条回答

另一个解决方案是,可以用目标变量对范畴变量进行二元分析。你将得到的结果是每一级如何影响目标。一旦你得到这一点,你就可以合并那些对数据有类似影响的级别。这将有助于你减少层数,以及每口井都会产生重大影响。在

有很多方法可以达到你想要的效果。我个人认为HashingVectorizer是健壮的。您可能最想尝试它,尤其是当您有许多(可能是稀疏的)特性时。另一种选择是DictVectorizer。在

看看这里的例子http://scikit-learn.org/stable/modules/feature_extraction.htmlhttp://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html。你可以很容易地修改它们来达到你的目的。在

相关问题 更多 >