从我从网上找到的文档中,我找到了一个表达式,用于确定术语频率,并将语料库中术语的文档频率权重逆为
tf idf(wt)=tf*对数(| N |/d)
我正在进行gensim中提到的tf-idf的实施。 文档中给出的示例是
>>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model to transform vectors
[(0, 0.70710678), (1, 0.70710678)]
显然不符合Tf-IDF的标准实施。 这两种型号有什么区别?
注:0.70710678为本征值计算中常用的2^(-1/2)值。 那么特征值是如何进入TF-IDF模型的呢?
目前没有回答
相关问题 更多 >
编程相关推荐