在Python3.6中将字节转换为字符串

>>> f = open('resource.cgn','r') >>> content = f.read() Traceback (most recent call last): File "<console>", line 1, in <module> File "/usr/local/lib/python3.6/encodings/ascii.py", line 26, in decode return codecs.ascii_decode(input, self.errors)[0] UnicodeDecodeError: 'ascii' codec cant decode byte 0xa0 in position 10: ordinal not in range(128) >>> f = open('resource.cgn','rb') >>> content = f.read() >>> type(content) <class 'bytes'> >>> content[0:20] b'\x04#lwq \x7f`g \xa0\x03\xa3,ess to' >>> content[0] 4 >>> content.decode('utf8') Traceback (most recent call last): File "<console>", line 1, in <module> UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 10: invalid start byte

1条回答

网友

1楼 · 发布于 2024-05-16 01:39:07

默认情况下，3.X的str现在是2.X的unicode，在3.X中以文本模式打开的文件对象分别在读取或写入文件时尝试解码和编码。^2.X的{}现在是3.X中的bytes。3.X bytes和2.X的str之间确实有非常小的差别，两者基本上都包含8位文本。

下面是在3.X中将b'\x04#lwq \x7f`g \xa0\x03\xa3,ess to'转换为str的一个简单技巧：

>>> content = ''.join(chr(x) for x in b'\x04#lwq \x7f`g \xa0\x03\xa3,ess to')
>>> content
'\x04#lwq \x7f`g \xa0\x03£,ess to'
>>> content[0]
'\x04

解码bytes字符串失败，因为您有无效的UTF-8字符字节，与ASCII相同。

但是，明智的做法是，bytes用于处理二进制数据，而str仅用于3.X中的Unicode字符串。建议使用bytes，而不是str用于3.X中的二进制字符串：

>>> content = b'\x04#lwq \x7f`g \xa0\x03\xa3,ess to'
>>> hex(content[0])
'0x4'

相关问题更多 >

编程相关推荐

热门问题

热门文章