信息检索中的Whoosh语言模型

1条回答

网友

1楼 · 发布于 2024-05-29 05:54:02

查看一下Whoosh's scoring module，并使用BM25F（第276到332行）作为构建您自己的权重和评分模型的参考。您需要创建一个权重模型和记分器。假设要调用模型Unigram，主要步骤如下：

实现您自己的Unigram加权模型类并从scoring.WeightingModel继承：
class Unigram(WeightingModel)
实现基类所需的方法，主要方法是scorer()，它返回对Scorer类的引用（下一步）。当您创建searcher并定义搜索者将使用的权重模型时，将调用此类
实现一个UnigramScorer类并从scoring.WeightLengthScorer继承：
class UnigramScorer(WeightLengthScorer)
实现__init__和_score方法__init__ 接受字段名和值，当您调用searcher.search()时，将为查询中的每个术语调用一次。 ^为结果中的每个匹配文档调用{}。它接受weight和length并返回给定字段的分数
在搜索时创建搜索程序时，请使用weighting参数指定自定义语言模型：
ix.searcher(weighting = Unigram)