scikit-learn, 向向量化文档集添加特征
我刚开始学习使用scikit-learn,想把一组文档转换成可以进行聚类和分类的格式。我了解了一些关于向量化的方法,以及tfidf转换的细节,这些可以用来加载文件并建立它们的词汇索引。
不过,我还有一些额外的元数据,比如每个文档的作者、负责的部门、主题列表等等。
我该如何把这些特征添加到向量化函数生成的每个文档向量中呢?
我刚开始学习使用scikit-learn,想把一组文档转换成可以进行聚类和分类的格式。我了解了一些关于向量化的方法,以及tfidf转换的细节,这些可以用来加载文件并建立它们的词汇索引。
不过,我还有一些额外的元数据,比如每个文档的作者、负责的部门、主题列表等等。
我该如何把这些特征添加到向量化函数生成的每个文档向量中呢?