伙计们。
我有一个大的数据集(60k个样本,50个特征)。其中一个名字和我很相关。有许多工作名称,我想编码,以适应一些模型,如线性回归或SVCs。但是,我不知道如何处理它们。在
我尝试使用pandas虚拟变量和scikitlearnOne-hot Encoding
,但它产生了许多我在测试集中可能没有遇到的特性。我试图使用scikit学习LabelEncoder()
,但是我在编码变量float() > str() error
时也遇到了一些错误。在
你们有什么建议我来处理这几个分类的特性?谢谢大家。在
Tags:
另一个解决方案是,可以用目标变量对范畴变量进行二元分析。你将得到的结果是每一级如何影响目标。一旦你得到这一点,你就可以合并那些对数据有类似影响的级别。这将有助于你减少层数,以及每口井都会产生重大影响。在
有很多方法可以达到你想要的效果。我个人认为
HashingVectorizer
是健壮的。您可能最想尝试它,尤其是当您有许多(可能是稀疏的)特性时。另一种选择是DictVectorizer
。在看看这里的例子http://scikit-learn.org/stable/modules/feature_extraction.html和http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html。你可以很容易地修改它们来达到你的目的。在
相关问题 更多 >
编程相关推荐