如何提高查询和文档相似性度量python TFIDF,BM25精度,

2024-05-15 00:42:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试计算查询和文档的TF-IDF,并使用COS距离对结果进行排序,得到前50个相似文档。 同样,我计算BM25得分,将BM25得分最高的排在第一位,得到前50个相似的文档。在

然而,对于TF-IDF和BM25,结果都不好。在

(数据集是label。测试数据集的大小为1400个文档):

For example in the testing dataset judgment

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。在

在我创建的搜索系统中输入queryID=1后。它从总共1400份文件中检索到365份文件。在

所以我对queryID=1365个文档使用了IT-IDF排名

^{pr2}$

类似地,我对queryID=1365个文档使用BM25排名

 the system might only return the  relevant document ID: 19.txt

通过手工查看365个单据,在365个单据中:实际上包含了相关的单据标识:19.txt、25.txt、35.txt、38.txt、45.txt和其他不相关的单据标识

由于相似性测度较差, 影响查准率和查全率。 我能知道如何提高准确度、召回率或排名方法吗???在


Tags: the文档txtid距离tfcosdocument

热门问题