我们有一些文本,其中包含德语的变音符号,比如用 'a' 加上一个组合的变音符号($cc $88)来表示。
有没有什么办法可以把这样的文本正确地转换成utf8格式呢?
首先,如果它还不是unicode格式,那就先把它解码。第二,使用unicodedata.normalize()这个方法。第三,进行编码。
unicode
unicodedata.normalize()