我如何将下面的pandas数据帧(包含多个文档中每个单词的tf idf分数)转换为一个名为“tfdif”的矩阵,以便我可以实现
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.stem.porter import PorterStemmer
str = 'this sentence has unseen text such as computer but also king lord juliet'
response = tfidf.transform([str])
在能够使用
TfidfVectorizer
转换新文档之前,您需要使用原始原始文档调整TfidfVectorizer
。在如果无法访问原始文档,则始终可以通过构造词典来恢复每个单词的idf weights:
稍后,您可以使用该字典计算新句子的tf idf权重:
^{pr2}$相关问题 更多 >
编程相关推荐