我有一个关于不同功能集组合的小问题。在
我的情况:
有些文档带有标题、一些标签和文本,可以将其分类为“垃圾邮件”或“火腿”。为了从文档(标题和文本)中提取特性,我使用了scikit-learn bugtracker中描述的方法。在
在这一步之后,我可以使用clf.fit(X,Y)
,其中X
是fit_transform
-操作的结果,Y
表示文档是ham(0
)还是垃圾邮件(1
)。在
我的问题:
最好的方法是把标签也作为特性来处理?我考虑过在dict中使用FeatureHasher
作为每个文档的特征(例如{"tag1": 1, "tag35":1}
)。在
Tags:
您应该看看
FeatureUnion
,如{a1}所示。它允许您创建多个变压器,并将其所有输出组合成一个矩阵。在相关问题 更多 >
编程相关推荐