查找Unicode字符名或代码点标签并在Unicode字符名中搜索
unicode-charnames的Python项目详细描述
Unicode字符的名称用作每个字符的唯一标识符。unicode标准中的字符名与iso/iec 10646中的相同。
unicode charnames包按unicode字符搜索unicode字符名或代码点标签,并按字符名搜索unicode代码点。它还执行Unicode字符名称中的子字符串搜索。此软件包支持Unicode标准的版本12.1(137929个字符)。
通用术语“字符名”是指编码的Unicode字符的Unicode字符“名称”属性值。对于没有字符名称(未分配、保留代码点和其他特殊代码点类型)的代码点,Unicode标准使用在尖括号之间显示的构造的Unicode代码点标签来表示字符名称。
功能
图书馆提供:
- 获取单个Unicode字符的字符名(标准字符属性“name”)或代码点标签(对于没有字符名的字符)的函数。
- 获取对应于Unicode字符名的码位值(通常为4到6位十六进制格式)的函数;搜索区分大小写,需要精确的字符串匹配。
- 按字符名搜索字符的函数;搜索不区分大小写,但需要精确的子字符串匹配。
示例用法:
# -*- coding: utf-8 -*- from unicode_charnames import ( charname, codepoint, search_charnames ) # charname() print('charname():\n') print(charname('龠')) print(charname('\U0001F60A')) print(charname('\u00E5')) print(charname('\u0002')) # codepoint() print('\ncodepoint():\n') print(codepoint('LATIN CAPITAL LETTER E WITH ACUTE')) print(codepoint('SUPERCALIFRAGILISTICEXPIALIDOCIOUS')) print(codepoint('SQUARE ERA NAME REIWA')) # search_charnames() print('\nsearch_charnames():\n') for x in search_charnames('era name'): print('\t'.join(x))
将产生以下输出:
charname(): CJK UNIFIED IDEOGRAPH-9FA0 SMILING FACE WITH SMILING EYES LATIN SMALL LETTER A WITH RING ABOVE <control-0002> codepoint(): 00C9 None 32FF search_charnames(): 32FF SQUARE ERA NAME REIWA 337B SQUARE ERA NAME HEISEI 337C SQUARE ERA NAME SYOUWA 337D SQUARE ERA NAME TAISYOU 337E SQUARE ERA NAME MEIZI
参考文献
许可证
unicode字符名是在mit许可下发布的。许可证全文here可用。
unicode标准v12.1.0derivedname.txt文件是根据unicode数据文件和软件许可协议授权的。使用前请咨询UNICODE, INC. LICENSE AGREEMENT。