scikit-learn, 向向量化文档集添加特征

6 投票

1 回答

1770 浏览

提问于 2025-04-17 18:11

我刚开始学习使用scikit-learn，想把一组文档转换成可以进行聚类和分类的格式。我了解了一些关于向量化的方法，以及tfidf转换的细节，这些可以用来加载文件并建立它们的词汇索引。

不过，我还有一些额外的元数据，比如每个文档的作者、负责的部门、主题列表等等。

我该如何把这些特征添加到向量化函数生成的每个文档向量中呢？

文本分类特征工程 scikit-learn 聚类分析 tfidf 文档向量化

1 个回答

你可以使用 DictVectorizer 来处理额外的分类数据，然后用 scipy.sparse.hstack 来把它们合并在一起。

回答于 2025-04-17 由 Python大师

分享举报