更好的模糊匹配性能？

网友

1楼 · 编辑于 2024-04-20 14:03:54

也许你可以为每个列表中出现的三元组（三个连续的字母）建立一个索引。只检查a中的字符串，对照b中共享三元组的字符串。在

您可能想看看BLAST生物信息学工具；它根据序列数据库进行近似的序列比对。在

网友

2楼 · 编辑于 2024-04-20 14:03:54

试试这个

Levenshtein Python C扩展模块包含快速计算-Levenshtein（编辑）距离的函数，编辑操作-字符串相似性-近似中值字符串，以及通常的字符串平均-字符串序列和集合相似度-它支持普通和Unicode字符串。在

网友

3楼 · 编辑于 2024-04-20 14:03:54

^{}根据字符串的双元组和三元组索引字符串，以便在difflib的O（log（N））vsO（N）中找到近似匹配。对于我的fuzzyset，它可以在20秒内计算出索引，并在不到100毫秒的时间内找到最接近的匹配