Python 3: 将UTF-8 Unicode印地语文本转换为Unicode

2条回答

网友

1楼 · 编辑于 2024-04-25 11:57:38

原始字符串可能被解码为latin1。如果可能的话，将其解码为UTF-8，但是如果接收到的信息有误，您可以通过再次编码为latin1并正确解码为UTF-8来反转它：

>>> s = '\xe0\xa4\xb9\xe0\xa5\x80 \xe0\xa4\xac\xe0\xa5\x8b\xe0\xa4\xb2'
>>> s.encode('latin1').decode('utf8')
'ही बोल'

注意，latin1编码匹配前256个Unicode码位，因此U+00E0（'\xe0'在python3str对象中）变成字节E0h（b'\xe0'在python3bytes对象中）。它是U+0000-U+00FF和字节00h-FFh之间的1:1映射。你知道吗

网友

2楼 · 编辑于 2024-04-25 11:57:38

使用原始unicode转义编解码器将字符串编码为字节，然后可以解码为UTF-8。你知道吗

>>> s = '\xe0\xa4\xb9\xe0\xa5\x80 \xe0\xa4\xac\xe0\xa5\x8b\xe0\xa4\xb2'
>>> s.encode('raw-unicode-escape').decode('utf-8')
'ही बोल'

这是一种解决方法；理想的解决方案是防止数据源对原始字节进行字符串化。你知道吗