我尝试计算查询和文档的TF-IDF,并使用COS距离对结果进行排序,得到前50个相似文档。 同样,我计算BM25得分,将BM25得分最高的排在第一位,得到前50个相似的文档。在
然而,对于TF-IDF和BM25,结果都不好。在
(数据集是label。测试数据集的大小为1400个文档):
For example in the testing dataset judgment
the queryID=1
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。在
在我创建的搜索系统中输入queryID=1后。它从总共1400份文件中检索到365份文件。在
所以我对queryID=1365个文档使用了IT-IDF排名
^{pr2}$类似地,我对queryID=1365个文档使用BM25排名
the system might only return the relevant document ID: 19.txt
通过手工查看365个单据,在365个单据中:实际上包含了相关的单据标识:19.txt、25.txt、35.txt、38.txt、45.txt和其他不相关的单据标识
由于相似性测度较差, 影响查准率和查全率。 我能知道如何提高准确度、召回率或排名方法吗???在
我认为你应该向前迈进一步,使用语言模型进行信息检索。使用这个Tutorial from Stanford University。在
相关问题 更多 >
编程相关推荐