TFIDF是如何在python的gensim工具中实现的？

2024-06-06 21:22:52 发布

男 | 程序猿一只，喜欢编程写python代码。

从我从网上找到的文档中，我找到了一个表达式，用于确定术语频率，并将语料库中术语的文档频率权重逆为

tf idf（wt）=tf*对数（| N |/d）

我正在进行gensim中提到的tf-idf的实施。文档中给出的示例是

>>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model to transform vectors
[(0, 0.70710678), (1, 0.70710678)]

显然不符合Tf-IDF的标准实施。这两种型号有什么区别？

注：0.70710678为本征值计算中常用的2^（-1/2）值。那么特征值是如何进入TF-IDF模型的呢？

Tags：文档示例 doc 表达式 tf 对数频率权重

0条回答

目前没有回答