sklearn/CountVectorizer：使用不同的输入语料库进行拟合和转换

from sklearn.feature_extraction.text import CountVectorizer corpus1=['file_name1','file_name2',...] count_vectorizer = CountVectorizer(input='filename') MAT1 = count_vectorizer.fit_transform(corpus1)

2条回答

网友
1楼 · 编辑于 2024-05-23 17:05:05

一个简单的解决方法可能是将列表中的每个项写入一个单独的文件中，然后将文件名列表传递给CountVectorizer对象。在

网友
2楼 · 编辑于 2024-05-23 17:05:05

您可以在训练后更改count_vectorizer.input值。在
from sklearn.feature_extraction.text import CountVectorizer corpus1=['file_name1','file_name2',...] count_vectorizer = CountVectorizer(input='filename') MAT1 = count_vectorizer.fit_transform(corpus1) count_vectorizer.input = 'content' corpus2 = numpy.array(['str1','str2']) MAT2 = count_vectorizer.transform(corpus2)
我不知道这样做是否有任何影响，但是，因为它是一个公共属性，我认为您可以更改它的值。在

相关问题更多 >

编程相关推荐

热门问题

热门文章