如何用python解码代表utf-8的字符串？

1条回答

网友

1楼 · 发布于 2024-05-21 02:06:37

如果您打印了unicode字符串的repr()输出，那么您似乎有一个Mojibake，字节数据使用错误的编码解码。

首先编码回字节，然后使用正确的编解码器解码。这可能与拉丁语-1的编码一样简单：

unicode_string.encode('latin1').decode('utf8')

这取决于错误的解码是如何应用的。如果使用的是Windows代码页（如CP1252），那么如果强制解码CP1252范围外的UTF-8字节，则最终可能会得到实际上无法编码回CP1252的Unicode数据。

修复此类错误的最佳方法是使用^{} library，它知道如何处理各种编解码器的强制解码Mojibake文本。

对于您的小样本，Latin-1似乎可以正常工作：

>>> unicode_string = u'\xE5\xB1\xB1\xE4\xB8\x9C \xE6\x97\xA5\xE7\x85\xA7'
>>> print unicode_string.encode('latin1').decode('utf8')
山东 日照
>>> import ftfy
>>> print ftfy.fix_text(unicode_string)
山东 日照

如果有文字字符\，x，后跟两个数字，则有另一个编码层，其中每个字节替换为4个字符。您必须先将这些字节“解码”为实际字节，方法是让Python使用string_escape编解码器解释转义：

>>> unicode_string = ur'\xE5\xB1\xB1\xE4\xB8\x9C \xE6\x97\xA5\xE7\x85\xA7'
>>> unicode_string
u'\\xE5\\xB1\\xB1\\xE4\\xB8\\x9C \\xE6\\x97\\xA5\\xE7\\x85\\xA7'
>>> print unicode_string.decode('string_escape').decode('utf8')
山东 日照

'string_escape'是一个Python 2专用的编解码器，它生成一个bytestring，因此在之后将其解码为UTF-8是安全的。

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用python解码代表utf-8的字符串？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >