java计算Lucene文档的相似性和质心
为了对我从Lucene得到的结果执行一个简单的聚类算法,我必须计算Lucene中两个文档之间的余弦相似性,我还需要能够制作一个形心文档来表示每个聚类的形心
我所能想到的就是用tf idf权重构建我自己的向量空间模型,使用TermFreqVectors和总体术语频率来填充它
我的问题是:这不是一个有效的方法,有没有更好的方法
这让人觉得有点不清楚,所以对于如何改进我的问题,我也非常感谢
你可以在下面搜索框中键入要查询的问题!
为了对我从Lucene得到的结果执行一个简单的聚类算法,我必须计算Lucene中两个文档之间的余弦相似性,我还需要能够制作一个形心文档来表示每个聚类的形心
我所能想到的就是用tf idf权重构建我自己的向量空间模型,使用TermFreqVectors和总体术语频率来填充它
我的问题是:这不是一个有效的方法,有没有更好的方法
这让人觉得有点不清楚,所以对于如何改进我的问题,我也非常感谢
# 1 楼答案
为了获得一个文档和另一个文档的相似性,为什么不对一个文档的内容进行一个查询,然后对索引运行查询呢? 这样,您将得到分数(余弦相似度值)
# 2 楼答案
简单的回答是:不
我花了很多时间(太多)研究这个问题,据我所知,您可以创建自己的向量空间模型并从中工作,或者使用Mahout生成Mahout向量,您可以从中对文档进行比较。我要继续做我自己的,所以我要标记这个问题的答案
# 3 楼答案
马克,你可能会发现Integrating Mahout with Lucene、IR Math with Java或Vector Space Classifier Using Lucene有用