使用Sklearn的TfidfVectorizer转换

from sklearn.feature_extraction.text import TfidfVectorizer self.vocabulary = "a list of words I want to look for in the documents".split() self.vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', stop_words='english') self.vect.fit_transform(self.vocabulary) ... doc = "some string I want to get tf-idf vector for" tfidf = self.vect.transform(doc)

1条回答

网友

1楼 · 发布于 2024-05-13 23:30:30

如果只想计算给定词汇表的tf idf，请使用vocabulary参数到TfidfVectorizer构造函数

vocabulary = "a list of words I want to look for in the documents".split()
vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', 
           stop_words='english', vocabulary=vocabulary)

然后，要拟合，即计算计数，使用给定的corpus，即一个iterable文档，请使用fit：

vect.fit(corpus)

方法fit_transform是

vect.fit(corpus)
corpus_tf_idf = vect.transform(corpus)

最后，transform方法接受一个语料库，因此对于单个文档，您应该将其作为列表传递，或者将其视为可输入的符号，每个符号都是一个文档。

doc_tfidf = vect.transform([doc])

相关问题更多 >

编程相关推荐

热门问题

热门文章