zhon提供中文文本处理中使用的常量。
zhon的Python项目详细描述
zhon是一个python库,提供中文文本中常用的常量 处理。
- 文档:http://zhon.rtfd.org
- Github:https://github.com/tsroten/zhon
- 支持:https://github.com/tsroten/zhon/issues
- 自由软件:MIT license
关于
zhon常数可用于中文文本处理,例如:
在字符串中查找cjk字符:
>>>re.findall('[%s]'%zhon.hanzi.characters,'I broke a plate: 我打破了一个盘子.')['我','打','破','了','一','个','盘','子']
验证拼音音节、单词或句子:
>>>re.findall(zhon.pinyin.syllable,'Yuànzi lǐ tíngzhe yí liàng chē.',re.I)['Yuàn','zi','lǐ','tíng','zhe','yí','liàng','chē']>>>re.findall(zhon.pinyin.word,'Yuànzi lǐ tíngzhe yí liàng chē.',re.I)['Yuànzi','lǐ','tíngzhe','yí','liàng','chē']>>>re.findall(zhon.pinyin.sentence,'Yuànzi lǐ tíngzhe yí liàng chē.',re.I)['Yuànzi lǐ tíngzhe yí liàng chē.']
功能
- 包括常用常数:
- 中日韩字符和部首
- 中文标点符号
- 汉语句子正则表达式模式
- 拼音元音、辅音、小写、大写和标点符号
- 拼音音节、单词和句子的正则表达式模式
- 注音字符和标记
- 注音音节正则表达式模式
- CC-CEDICT字符
- 在Python2.7和3上运行