在scikit-learn中组合独立特征

0 投票
1 回答
3482 浏览
提问于 2025-04-18 13:59

我有一个关于不同特征组合的小问题。

我的情况是:

我有一些文档,每个文档都有标题、一些标签和一段文本,需要将其分类为“垃圾邮件”或“正常邮件”。为了从文档中提取特征(标题和文本),我使用了在scikit-learn的bug跟踪器中描述的方法。

在这个步骤之后,我可以使用clf.fit(X,Y),其中Xfit_transform操作的结果,而Y表示文档是正常邮件(0)还是垃圾邮件(1)。

我的问题是:

有什么好的方法可以将标签也作为特征来处理呢?我考虑过使用FeatureHasher,用一个字典来包含每个文档的标签作为特征(例如{"tag1": 1, "tag35":1})。

1 个回答

0

你可以看看 FeatureUnion,具体内容可以在 这里 找到。它的作用是让你可以创建多个转换器,然后把它们的输出结果合并成一个矩阵。

撰写回答