Python中的Levenshtein距离与民族字符错误结果

1条回答

网友

1楼 · 发布于 2024-05-29 03:03:34

首先，必须确保两个字符串都是unicode格式。对于python3，您可以自动获得它，但是在python2中，您必须首先将字符串解码为unicode类型。例如，sys.argv[1].decode('utf-8')，如果您知道控制台中的编码是UTF-8。您可以尝试用^{}来猜测此编码。在

之后，您可能需要规范化unicode。例如，unicode字符串u'\u00c7'和u'\u0043\u0327'具有相同的表示形式，但是它们将被比较为不相等，并且具有非零的levenshtein距离。要规范化字符串，可以使用unicodedata.normalize函数。在

Python 2中的脚本可能如下所示：

import unicodedata
import sys
# import or define your levenshtein function here

def decode_and_normalize(s):
    return unicodedata.normalize('NFKC', s.decode('utf-8'))

s1 = decode_and_normalize(sys.argv[1])
s2 = decode_and_normalize(sys.argv[2])
print levenshtein(s1, s2)

毕竟，如果字符在Basic Multilingual Plane之外，您仍可能遇到问题。在这个问题上，看看这个stackoverlow question。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中的Levenshtein距离与民族字符错误结果

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >