kakasi-kana汉字简单倒排库的python实现

pykakasi的Python项目详细描述


概述

Documentation StatusPyPI versionTravis-CIAzure-PipelinesCoverage status

pykakasi是一个自然语言处理库,用于将假名-汉字-日语从句转换为 python中带分隔符的罗马假名。 这是用python改进的kakasi库(原来是用c编写的)。

皮卡卡西一瞥

安装:

pip install pykakasi

示例源代码:

$ python
>>> import pykakasi
>>>
>>> text = u"かな漢字交じり文"
>>> kakasi = pykakasi.kakasi()
>>> kakasi.setMode("H","a") # Hiragana to ascii, default: no conversion
>>> kakasi.setMode("K","a") # Katakana to ascii, default: no conversion
>>> kakasi.setMode("J","a") # Japanese to ascii, default: no conversion
>>> kakasi.setMode("r","Hepburn") # default: use Hepburn Roman table
>>> kakasi.setMode("s", True) # add space, default: no separator
>>> kakasi.setMode("C", True) # capitalize, default: no capitalize
>>> conv = kakasi.getConverter()
>>> result = conv.do(text)
>>> print(result)
kana Kanji Majiri Bun
>>>
>>>
>>> wakati = pykakasi.wakati()
>>> conv = wakati.getConverter()
>>> result = conv.do(text)
>>> print(result)
かな 漢字 交じり 文
>>>
>>> kakasi = pykakasi.kakasi()
>>> kakasi.setMode("J","aF") # Japanese to furigana
>>> kakasi.setMode("H","aF") # Japanese to furigana
>>> conv = kakasi.getConverter()
>>> result = conv.do(text)
>>> print(result)
かな[kana] 漢字[Kanji] 交じり[Majiri] 文[Bun]
>>>

您可以使用“h”、“k”、“a”中的输出模式 “平假名”、“片假名”和“字母表”。 对于输入,您可以使用“j”表示“日语”,即 汉字、片假名和平假名的混合体。 还有“h”、“k”的值,意思是“平假名”和“片假名”。 您可以使用“赫本”,“昆瑞”或“护照”作为模式“R”,罗马表开关。 另外“S”用于分隔符开关,“C”用于大写开关。 “S”表示分离器存储选项。

wakati是kakasi的wakati-gaki选项的实现。

文档

手册放在readthedocs上。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用JavaCV库进行图像旋转的java问题   为Java类创建相等的方法来比较double或int值   javarmi、EJB和回调   用java编写phonegap应用程序(使用GWT、Vaadin等)   java在Hibernate中设置参数值时指定字符串类型   java正则表达式文本日期   Java Hibernate@SafeHtml不允许url链接   使用Java Trie时,无法识别词尾。在递归中失败   java如何在Swing的JTextArea中执行正则表达式   java如何在列表的所有对象中更改sepecific属性的值   java为什么是我的ArrayList。删除(id)呼叫不工作?   java是否可以将用户从同一个jcombobox输入的项添加到jcombobox中?   java当从Python调用jar时,如何最小化JavaVM的加载时间?   面向对象Java类如何从Entry类获取信息?   java JPA错误:关系不存在