在scikit-learn中组合独立特征
我有一个关于不同特征组合的小问题。
我的情况是:
我有一些文档,每个文档都有标题、一些标签和一段文本,需要将其分类为“垃圾邮件”或“正常邮件”。为了从文档中提取特征(标题和文本),我使用了在scikit-learn的bug跟踪器中描述的方法。
在这个步骤之后,我可以使用clf.fit(X,Y)
,其中X
是fit_transform
操作的结果,而Y
表示文档是正常邮件(0
)还是垃圾邮件(1
)。
我的问题是:
有什么好的方法可以将标签也作为特征来处理呢?我考虑过使用FeatureHasher
,用一个字典来包含每个文档的标签作为特征(例如{"tag1": 1, "tag35":1}
)。