我要生成所有utf8字符列表。
我写了下面的代码,但效果不好。
我以为是因为chr()
需要unicode编号,但我给出了utf8代码。
我想我得把utf8码转换成unicode码,但我不知道怎么走。
我该怎么办?或者你知道更好的方法吗?在
def utf8_2byte():
characters = []
# first byte range: [C2-DF]
for first in range(0xC2, 0xDF + 1):
# second byte range: [80-BF]
for second in range(0x80, 0xBF + 1):
num = (first << 8) + second
line = [hex(num), chr(num)]
characters.append(line)
return characters
我希望:
^{pr2}$实际上:
[0xc380,쎀]
[0xc381,쎁]
[0xc382,쎂]
Unicode是一个字符集,而UTF-8是一种编码,它是一种在机器级别将代码点从Unicode编码到字节的算法,反之亦然。在
在Unicode标准中,
0xc380
是쎀
。在当使用UTF-8编码解码时,字节}。在
0xc380
是{在python3中,
chr
采用unicode代码点,而不是utf-8
。U+C380
在朝鲜文范围内。相反,您可以使用bytearray
进行解码还有其他方法,比如}。任何组装本机字节并将其转换为
struct
或{bytes
的操作都可以。在相关问题 更多 >
编程相关推荐