结合scikitlearn中的独立功能

2024-05-14 15:06:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个关于不同功能集组合的小问题。在

我的情况:

有些文档带有标题、一些标签和文本,可以将其分类为“垃圾邮件”或“火腿”。为了从文档(标题和文本)中提取特性,我使用了scikit-learn bugtracker中描述的方法。在

在这一步之后,我可以使用clf.fit(X,Y),其中Xfit_transform-操作的结果,Y表示文档是ham(0)还是垃圾邮件(1)。在

我的问题:

最好的方法是把标签也作为特性来处理?我考虑过在dict中使用FeatureHasher作为每个文档的特征(例如{"tag1": 1, "tag35":1})。在


Tags: 方法文档文本标题分类垃圾邮件情况标签

热门问题