python模块,将中文文本标识为简体或繁体。
hanzidentifier的Python项目详细描述
hanzi identifier是一个简单的python模块,它将文本字符串标识为 有简体字或繁体字的。
- github:https://github.com/tsroten/hanzidentifier
- 自由软件:麻省理工学院许可证
关于
易于使用的帮助函数识别字符串:
>>>importhanzidentifier>>>hanzidentifier.has_chinese('Hello my name is John.')False>>>hanzidentifier.is_simplified('John说:你好!')True>>>hanzidentifier.is_traditional('John說:你好!')True>>>hanzidentifier.has_chinese('Country in Simplified: 国家. Country in Traditional: 國家.')True
这里没有帮助函数:
>>>hanzidentifier.identify('Hello my name is Thomas.')ishanzidentifier.UNKNOWNTrue>>>hanzidentifier.identify('Thomas 说:你好!')ishanzidentifier.SIMPLIFIEDTrue>>>hanzidentifier.identify('Thomas 說:你好!')ishanzidentifier.TRADITIONALTrue>>>hanzidentifier.identify('你好!')ishanzidentifier.BOTHTrue>>>hanzidentifier.identify('Country in Simplified: 国家. Country in Traditional: 國家.')ishanzidentifier.MIXEDTrue
hanzidentifier.identify有五个可能的返回值:
- hanzidentifier.UNKNOWN:字符串中没有可识别的中文字符。
- hanzidentifier.BOTH:字符串与简化和传统字符系统兼容。
- hanzidentifier.TRADITIONAL:字符串由传统字符组成。
- hanzidentifier.SIMPLIFIED:字符串由简化字符组成。
- hanzidentifier.MIXED:字符串由单独识别为传统字符的字符组成,也由单独识别为简化字符的字符组成。
在确定字符串的标识时,CC-CEDICT中找不到的字符将被忽略。 汉字识别器使用Zhon提供的cc-cedict数据来识别汉字。
由于繁体字和简体字系统重叠, 包含简化字符的字符串可以标识为 hanzidentifer.SIMPLIFIED或hanzidentifier.BOTH,取决于 汉字也是繁体字。
汉字标识符的函数接受并返回Unicode。
开始
- 安装汉字识别码:$ pip install hanzidentifier
- 通过GitHub Issues报告错误并提出问题
- Contribute features or bug fixes
更改日志
v1.0.2(2015-08-06)
- 新的自述文件格式
- 添加Travis CI支持
- 在setup.py中使用io.open()。修复1.
v1.0.1(2014-04-14)
- 修复URL错误。
v1.0(2014-04-12)
版本1.0合并了Dragon Mapper的一些更改。它与 以前版本的汉字标识符(例如,某些常量的名称不同)。
- 合并来自Dragon Mapper项目的代码。
- 添加tox支持。
v0.1(2013-04-24)
- 初次发布。