非常紧凑的日本代币器

tinysegmenter的Python项目详细描述


“python中的tinysegenter”是由TinySegmenter的masato hagiwara编写的python port,它是一个非常紧凑的日语标记器,最初由taku kudo先生用javascript编写。

这个图书馆终于由杰汉包装好了。它导致了这个分叉,因为Masako Hagiwara没有回复电子邮件,也没有打包补丁。 因此无法提交到上游。但这是一个友好的叉子,欢迎Masako Hagiwara收回他的维修 项目。 目前,我(杰汉)负责维修,所以请把这个新的website称为正式的,并且 在那里指挥任何新的patch。我会跟进补丁和错误报告,但可能不会保持积极的发展。任何想要的人 改进图书馆欢迎参与,并将欣然授予提交者权利。

它适用于Python2.6或更高版本(也适用于Python3)。

作者

查看AUTHORS文件中的所有作者和贡献者。

下载并安装

这个库可以以常见的方式安装:使用setup.py,作为pip包… 有关详细信息,请参阅包中的INSTALL文件。

如果您只想下载源包,请参考pypi存储库:http://pypi.python.org/pypi/tinysegmenter

开发版本可以在git存储库中匿名下载:

$ git clone git://git.tuxfamily.org/gitroot/tinysegmente/tinysegmenter.git

或在线浏览:http://git.tuxfamily.org/tinysegmente/tinysegmenter/

用法

直接使用示例代码:

> import tinysegmenter
> segmenter = tinysegmenter.TinySegmenter()
> print(' | '.join(segmenter.tokenize(u"私の名前は中野です")))
私 | の | 名前 | は | 中野 | です

tinysegenter的接口与NLTKTokenizerI类兼容,尽管分发不直接依赖于nltk。 这里有一种方法可以在nltk中将其用作标记器(多个基类的顺序很重要):

import nltk.tokenize.api

class myTinySegmenter(tinysegmenter.TinySegmenter, nltk.tokenize.api.TokenizerI):
    pass
segmenter = myTinySegmenter()
# This segmenter can be used any place which expects a NLTK's TokenizerI subclass.

有关nltk(natural language toolkit模块)的更多信息,请参见:http://nltk.org/api/nltk.tokenize.html#nltk.tokenize.api.TokenizerI

联系、错误和贡献

所有的bug、补丁、问题等都可以发送到位于zemarmot的tinysegment。

许可证

此包是在新的bsd许可证下分发的(请参见COPYING文件)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
空字符串检查在java中未按预期工作   JavaSpringWebClient:自动计算主体的HMAC签名并将其作为头传递   foreach是否有一个Java等效的foreach循环和一个引用变量?   java如何在Eclipse中导入jar   使用特定第三方或java时lombok触发错误。*方法或构造函数   安卓 java将对象数组转换为int数组   java使一定百分比的JUnit测试通过   java Android:将Seekbar的一个值与另一个值进行比较   java将int数组(图像数据)写入文件的最佳方式是什么   java取代了系统。yml的构造函数内的getProperty   sqlite Java将公钥和私钥转换为字符串,然后再转换回字符串   安卓获取白色像素并将其保存到java opencv中的数组中   java为什么是ServerSocket。setSocketFactory静态?   Java数组似乎在不直接修改的情况下更改值