擅长:python、mysql、java
<p>感谢@vpekar的实现。这帮了大忙。我刚发现它在计算余弦相似性时忽略了tf-idf权重。
计数器(word)返回一个字典,其中包含单词列表及其出现。</p>
<p>cos(q,d)=sim(q,d)=(q·d)/(| q | d |)=(和(q i,di)/(sqrt(和(qi2)))*(sqrt(和(vi2))),其中i=1到v)</p>
<ul>
<li>qi是查询中项i的tf idf权重。</li>
<li>di是tf idf</li>
<li>文件中术语i的权重。|q和d是q的长度
和d</li>
<li>这是q和d的余弦相似性。或者,
等价地,q和d之间角的余弦</li>
</ul>
<p>请随意查看我的代码<a href="https://github.com/puneeth-u-bharadwaj/Data-Mining/blob/master/Cosine-Similarity/src/final/Puneeth_Umesh_Bharadwaj_PA1.py" rel="nofollow">here</a>。但首先你得下载水蟒的软件包。它将在Windows中自动为您设置python路径。在Eclipse中添加这个python解释器。</p>