将tf-idf-pandas数据帧转换为tf-idf矩阵

2024-06-17 09:53:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我如何将下面的pandas数据帧(包含多个文档中每个单词的tf idf分数)转换为一个名为“tfdif”的矩阵,以便我可以实现

from sklearn.feature_extraction.text import TfidfVectorizer from nltk.stem.porter import PorterStemmer str = 'this sentence has unseen text such as computer but also king lord juliet' response = tfidf.transform([str])

enter image description here


Tags: 数据textfrom文档importpandastf矩阵
1条回答
网友
1楼 · 发布于 2024-06-17 09:53:08

在能够使用TfidfVectorizer转换新文档之前,您需要使用原始原始文档调整TfidfVectorizer。在

如果无法访问原始文档,则始终可以通过构造词典来恢复每个单词的idf weights

idfs[word] = log{(# documents) / (# documents where word has non-zero tf-idf weight)}

稍后,您可以使用该字典计算新句子的tf idf权重:

^{pr2}$

相关问题 更多 >