如何提高查询和文档相似性度量python TFIDF，BM25精度，

2024-05-15 00:42:19 发布

男 | 程序猿一只，喜欢编程写python代码。

我尝试计算查询和文档的TF-IDF，并使用COS距离对结果进行排序，得到前50个相似文档。同样，我计算BM25得分，将BM25得分最高的排在第一位，得到前50个相似的文档。在

然而，对于TF-IDF和BM25，结果都不好。在

（数据集是label。测试数据集的大小为1400个文档）：

For example in the testing dataset judgment

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。在

在我创建的搜索系统中输入queryID=1后。它从总共1400份文件中检索到365份文件。在

所以我对queryID=1365个文档使用了IT-IDF排名

^{pr2}$

类似地，我对queryID=1365个文档使用BM25排名

 the system might only return the  relevant document ID: 19.txt

通过手工查看365个单据，在365个单据中：实际上包含了相关的单据标识：19.txt、25.txt、35.txt、38.txt、45.txt和其他不相关的单据标识

由于相似性测度较差，影响查准率和查全率。我能知道如何提高准确度、召回率或排名方法吗？？？在

Tags： the 文档 txt id 距离 tf cos document

1条回答

网友

1楼 · 发布于 2024-05-15 00:42:19

我认为你应该向前迈进一步，使用语言模型进行信息检索。使用这个Tutorial from Stanford University。在