使用Whoosh Python搜索库进行文档比较/相似性分析
我想知道如何使用Whoosh来获取一个文档的相似度测量。
我想创建一个“相关”功能,能够对之前已经索引的文档进行排名,找出与某个文档相似度高的其他文档。
我是不是应该把这个文档作为一个长的查询字符串输入?还是说我需要把这个文档添加到索引中,然后从中提取相似度查询的结果呢?
谢谢!
1 个回答
2
Whoosh搜索器类里面有一个叫做 'more_like()' 的方法。
这个方法可以让你把一个已经索引的文档和其他的索引文档进行比较,然后返回一份和这个文档相似的文档列表。
另外, whoosh.searching.Hit类 可以给这些文档打分和排名。
更新链接:
more_like()
: https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Searcher.more_like
whoosh.searching.Hit
: https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Hit