sklearn/CountVectorizer:使用不同的输入语料库进行拟合和转换

2024-05-23 17:05:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用sklearn python lib中的CountVectorizer将文件中的语料库矢量化,并使用input='filename'选项初始化CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer
corpus1=['file_name1','file_name2',...]
count_vectorizer = CountVectorizer(input='filename')
MAT1 = count_vectorizer.fit_transform(corpus1)

然后我需要使用该模型来转换一个新的语料库,但是数字阵列(['str1','str2'])

^{pr2}$

当CountVectorizer用input='content'初始化时,通常可以这样做,但我不知道如何指定新的输入类型。在

有什么办法或者解决办法吗?在

谢谢!在


Tags: 文件frominputlib选项countsklearnfilename
2条回答

一个简单的解决方法可能是将列表中的每个项写入一个单独的文件中,然后将文件名列表传递给CountVectorizer对象。在

您可以在训练后更改count_vectorizer.input值。在

from sklearn.feature_extraction.text import CountVectorizer

corpus1=['file_name1','file_name2',...]
count_vectorizer = CountVectorizer(input='filename')
MAT1 = count_vectorizer.fit_transform(corpus1)

count_vectorizer.input = 'content'
corpus2 = numpy.array(['str1','str2'])
MAT2 = count_vectorizer.transform(corpus2)

我不知道这样做是否有任何影响,但是,因为它是一个公共属性,我认为您可以更改它的值。在

相关问题 更多 >