scikit-learn, 向向量化文档集添加特征

6 投票
1 回答
1770 浏览
提问于 2025-04-17 18:11

我刚开始学习使用scikit-learn,想把一组文档转换成可以进行聚类和分类的格式。我了解了一些关于向量化的方法,以及tfidf转换的细节,这些可以用来加载文件并建立它们的词汇索引。

不过,我还有一些额外的元数据,比如每个文档的作者、负责的部门、主题列表等等。

我该如何把这些特征添加到向量化函数生成的每个文档向量中呢?

1 个回答

10

你可以使用 DictVectorizer 来处理额外的分类数据,然后用 scipy.sparse.hstack 来把它们合并在一起。

撰写回答