模糊模糊Wratio记分错误

2024-04-20 12:51:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我了解基本的fuzzy wuzzy及其分数是如何工作的。 然而,我遇到了一个场景,模糊的wuzzy给了WRatio一个高分,尽管这两个字符串似乎没有任何相似之处。(下图供参考)

有谁能解释一下,并帮助我理解为什么它会导致这样的行为

Output for reference


Tags: 字符串foroutput场景分数fuzzyreference高分
1条回答
网友
1楼 · 发布于 2024-04-20 12:51:21

在您的案例中,有两个字符串:

"The Boston Globe's Fresh Start program embraces the right to be forgotten"
"Subscribe to Continue Reading"

长度差异超过50%,因此WRatio使用了大多数算法的部分版本,并将它们的权重降低了一点。对于两个示例字符串fuzz.partial_token_set_ratio返回100分,因为两个句子都包含单词to。然后,该分数加权为0.95,类似于token_set_ratio,之后加权为0.9,因为它是部分版本。你的期末成绩是100 * 0.95 * 0.9 = 85.5->round(85.5) = 86

相关问题 更多 >