python模块,将中文文本标识为简体或繁体。

hanzidentifier的Python项目详细描述


https://badge.fury.io/py/hanzidentifier.pnghttps://travis-ci.org/tsroten/hanzidentifier.png?branch=develop

hanzi identifier是一个简单的python模块,它将文本字符串标识为 有简体字或繁体字的。

关于

易于使用的帮助函数识别字符串:

>>>importhanzidentifier>>>hanzidentifier.has_chinese('Hello my name is John.')False>>>hanzidentifier.is_simplified('John说:你好!')True>>>hanzidentifier.is_traditional('John說:你好!')True>>>hanzidentifier.has_chinese('Country in Simplified: 国家. Country in Traditional: 國家.')True

这里没有帮助函数:

>>>hanzidentifier.identify('Hello my name is Thomas.')ishanzidentifier.UNKNOWNTrue>>>hanzidentifier.identify('Thomas 说:你好!')ishanzidentifier.SIMPLIFIEDTrue>>>hanzidentifier.identify('Thomas 說:你好!')ishanzidentifier.TRADITIONALTrue>>>hanzidentifier.identify('你好!')ishanzidentifier.BOTHTrue>>>hanzidentifier.identify('Country in Simplified: 国家. Country in Traditional: 國家.')ishanzidentifier.MIXEDTrue

hanzidentifier.identify有五个可能的返回值:

  • hanzidentifier.UNKNOWN:字符串中没有可识别的中文字符。
  • hanzidentifier.BOTH:字符串与简化和传统字符系统兼容。
  • hanzidentifier.TRADITIONAL:字符串由传统字符组成。
  • hanzidentifier.SIMPLIFIED:字符串由简化字符组成。
  • hanzidentifier.MIXED:字符串由单独识别为传统字符的字符组成,也由单独识别为简化字符的字符组成。

在确定字符串的标识时,CC-CEDICT中找不到的字符将被忽略。 汉字识别器使用Zhon提供的cc-cedict数据来识别汉字。

由于繁体字和简体字系统重叠, 包含简化字符的字符串可以标识为 hanzidentifer.SIMPLIFIEDhanzidentifier.BOTH,取决于 汉字也是繁体字。

汉字标识符的函数接受并返回Unicode。

开始

更改日志

v1.0.2(2015-08-06)

  • 新的自述文件格式
  • 添加Travis CI支持
  • setup.py中使用io.open()。修复1.

v1.0.1(2014-04-14)

  • 修复URL错误。

v1.0(2014-04-12)

版本1.0合并了Dragon Mapper的一些更改。它与 以前版本的汉字标识符(例如,某些常量的名称不同)。

v0.1(2013-04-24)

  • 初次发布。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java读取SSLSocket的最快或最佳方式   JavaGuice向类构造函数注入对象   java类不是抽象的,并且不会覆盖OnClickListener中的抽象方法onClick(视图)   java OpenGL 1.1更改颜色更改以前的颜色?   c#将Java/Android连接到。网络服务   java在节点上生成AES密钥   java Liferay与MarkLogic XDBC数据库集成   java使用静态初始化块来提高性能   java如何在需要不同参数的另一个方法中使用同一类中的方法   音频Java多种声音   Java显式引用转换   java Intellij,如何在maven项目中导入模块   java在什么条件下调用ELResolver的setValue方法?   java在beanshell中计算代码字符串并获取beanshell解释器返回的值   javascript将音频文件上载到服务器并从服务器响应设置图像   编码风格清理java代码,多个else if语句   java是否需要使此变量可变?   java线程未更新GlassPane上的进度条   java关闭调试模式@Vaadin Spring启动应用程序