我想找到一种方法来确定Unicode字符是否存在于Unicode字符的标准化子集中,特别是拉丁basic和拉丁-1。我正在使用python2和unicodedata模块,但是需要一个在3中也能工作的解决方案,因为我的工作很快就要升级了。你知道吗
我现在的想法是使用Unicode脚本.txt文件并将其解析为某种字典进行搜索。问题是该文件中Unicode代码的格式如下所示。你知道吗
02B9..02C1
python中的Unicode点是这样的
`u'\xe6'
我不知道如何比较这两件事。我猜它是十六进制的,Python的表示只是十六进制的另一种表示方式。你知道吗
我是否可以引用Unicode子集及其字符的现有JSON数据集?谷歌搜索一无所获。因为数据集相对较小,所以最好只从维基百科页面制作一个?你知道吗
02B9 .. 02C1
是这些字符的十六进制码位。使用unicodedata.name
可以得到他们的名字:如果您想知道它们是否是拉丁语-1的子集,您可以
try
将它们转换为该(或任何其他)编码:它们都将返回
False
,因为它们不是拉丁1的子集。你知道吗相关问题 更多 >
编程相关推荐