确定unicode sub中是否存在unicode字符

1条回答

网友

1楼 · 发布于 2024-04-26 11:46:45

02B9 .. 02C1是这些字符的十六进制码位。使用unicodedata.name可以得到他们的名字：

import unicodedata 
for i in range(int('02b9', 16), int('02c1', 16) + 1): 
    char = chr(i) 
    print(hex(i), char, unicodedata.name(char))  


0x2b9 ʹ MODIFIER LETTER PRIME
0x2ba ʺ MODIFIER LETTER DOUBLE PRIME
0x2bb ʻ MODIFIER LETTER TURNED COMMA
0x2bc ʼ MODIFIER LETTER APOSTROPHE
0x2bd ʽ MODIFIER LETTER REVERSED COMMA
0x2be ʾ MODIFIER LETTER RIGHT HALF RING
0x2bf ʿ MODIFIER LETTER LEFT HALF RING
0x2c0 ˀ MODIFIER LETTER GLOTTAL STOP
0x2c1 ˁ MODIFIER LETTER REVERSED GLOTTAL STOP

如果您想知道它们是否是拉丁语-1的子集，您可以try将它们转换为该（或任何其他）编码：

import unicodedata 
for i in range(int('02b9', 16), int('02c1', 16) + 1): 
    char = chr(i) 
    try:
        char.encode('latin1')
    except UnicodeEncodeError:
        print(char, False)
    else:
        print(char, True)

它们都将返回False，因为它们不是拉丁1的子集。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

确定unicode sub中是否存在unicode字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >