短语间相似度得分

2条回答

网友

1楼 · 编辑于 2024-04-18 05:20:41

>>> from fuzzywuzzy import fuzz

>>> s1 = "this is a sentence used for testing"
>>> s2 = "while this is another sentence also used for testing"
>>> s3 = "I am a completely unrelated string"

>>> fuzz.partial_ratio(s1, s2)
80
>>> fuzz.partial_ratio(s1, s3)
52
>>> fuzz.partial_ratio(s2, s3)
43

它还包括解释无序令牌等的其他比较模式

网友

2楼 · 编辑于 2024-04-18 05:20:41

你也可以用Levenshtein距离来衡量两个短语之间的相似性，把每个单词当作一个单独的元素。当您有大小不等的字符串时，您可以使用Smith-Waterman或Needleman-Wunsch算法。这些算法在生物信息学中得到了广泛的应用，其实现可以在biopython软件包中找到。您还可以标记短语中的单词，并测量每个短语中每个标记的频率，这将产生每个短语的频率数组。从该数组中，可以使用任何向量距离（如欧氏距离或余弦相似性）来度量成对相似性。短语的标记化可以用nltk包完成，距离可以用scipy测量。希望有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

短语间相似度得分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >