有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java计算Lucene文档的相似性和质心

为了对我从Lucene得到的结果执行一个简单的聚类算法,我必须计算Lucene中两个文档之间的余弦相似性,我还需要能够制作一个形心文档来表示每个聚类的形心

我所能想到的就是用tf idf权重构建我自己的向量空间模型,使用TermFreqVectors和总体术语频率来填充它

我的问题是:这不是一个有效的方法,有没有更好的方法

这让人觉得有点不清楚,所以对于如何改进我的问题,我也非常感谢


共 (3) 个答案

  1. # 1 楼答案

    为了获得一个文档和另一个文档的相似性,为什么不对一个文档的内容进行一个查询,然后对索引运行查询呢? 这样,您将得到分数(余弦相似度值)

  2. # 2 楼答案

    简单的回答是:不

    我花了很多时间(太多)研究这个问题,据我所知,您可以创建自己的向量空间模型并从中工作,或者使用Mahout生成Mahout向量,您可以从中对文档进行比较。我要继续做我自己的,所以我要标记这个问题的答案