如何在Python中将\xXY编码字符转换为UTF-8？

网友

1楼 · 编辑于 2024-06-16 14:40:38

它不是ASCII码（ASCII码只上升到127；\xaf是175）。你首先需要找出正确的编码，解码，然后用UTF-8重新编码。

你能提供一个实际的字符串样本吗？然后我们就可以猜出当前的编码。

网友

2楼 · 编辑于 2024-06-16 14:40:38

您的文件已经是UTF-8编码的文件。

# saved encoding-sample to /tmp/encoding-sample
import codecs
fp= codecs.open("/tmp/encoding-sample", "r", "utf8")
data= fp.read()

import unicodedata as ud

chars= sorted(set(data))
for char in chars:
    try:
        charname= ud.name(char)
    except ValueError:
        charname= "<unknown>"
    sys.stdout.write("char U%04x %s\n" % (ord(char), charname))

并手动填写未知名称：
char U000a换行
字符U001e信息分隔符2
字符U001f信息分隔符一

网友

3楼 · 编辑于 2024-06-16 14:40:38

.encode用于将Unicode字符串（2.x中的unicode，3.x中的str）转换为字节字符串（2.x中的str，3.x中的bytes）。

在2.x中，对str对象调用.encode是合法的。Python首先隐式地将字符串解码为Unicode：s.encode(e)就像您已经编写了s.decode(sys.getdefaultencoding()).encode(e)。

问题是默认编码是“ascii”，并且字符串包含非ascii字符。可以通过显式指定正确的编码来解决此问题。

>>> '\xAF \xBE'.decode('ISO-8859-1').encode('UTF-8')
'\xc2\xaf \xc2\xbe'

相关问题更多 >

编程相关推荐

热门问题

热门文章