如何在Python3中将utf8代码数字转换为unicode代码数字

def utf8_2byte(): characters = [] # first byte range: [C2-DF] for first in range(0xC2, 0xDF + 1): # second byte range: [80-BF] for second in range(0x80, 0xBF + 1): num = (first << 8) + second line = [hex(num), chr(num)] characters.append(line) return characters

2条回答

网友

1楼 · 编辑于 2024-04-19 04:11:54

Unicode是一个字符集，而UTF-8是一种编码，它是一种在机器级别将代码点从Unicode编码到字节的算法，反之亦然。在

在Unicode标准中，0xc380是쎀。在

当使用UTF-8编码解码时，字节0xc380是{}。在

>>> s = "쎀"
>>> hex(ord(s))
'0xc380'
>>> b = bytes.fromhex("C3 80")
>>> b
b'\xc3\x80'
>>> b.decode("utf8")
'À'
>>> bytes((0xc3, 0x80)).decode("utf8")
'À'

网友

2楼 · 编辑于 2024-04-19 04:11:54

在python3中，chr采用unicode代码点，而不是utf-8。U+C380在朝鲜文范围内。相反，您可以使用bytearray进行解码

>>> bytearray((0xc3, 0x80)).decode('utf-8')
'À'

还有其他方法，比如struct或{}。任何组装本机字节并将其转换为bytes的操作都可以。在

相关问题更多 >

编程相关推荐

热门问题

热门文章