TFIDF是如何在python的gensim工具中实现的?

2024-05-14 19:10:08 发布

您现在位置:Python中文网/ 问答频道 /正文

从我从网上找到的文档中,我找到了一个表达式,用于确定术语频率,并将语料库中术语的文档频率权重逆为

tf idf(wt)=tf*对数(| N |/d)

我正在进行gensim中提到的tf-idf的实施。 文档中给出的示例是

>>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model to transform vectors
[(0, 0.70710678), (1, 0.70710678)] 

显然不符合Tf-IDF的标准实施。 这两种型号有什么区别?

注:0.70710678为本征值计算中常用的2^(-1/2)值。 那么特征值是如何进入TF-IDF模型的呢?


Tags: 文档示例doc表达式tf对数频率权重

热门问题