pymmseg-cpp,一个高性能的中文分词工具。

pymmseg的Python项目详细描述


pymmseg cpp
作者:pluskid&kronuz
http://github.com/pluskid/pymmseg cpp

==描述:

pymmseg cpp是rmmseg cpp的python接口。rmmseg cpp是一个高性能的ruby中文分词工具。但是,
核心部分是用C++编写的,独立于Ruby。因此,我决定为它编写一个python接口,以便在python项目中使用它。

==特性:

*运行速度快,内存消耗小。

*支持用户自定义字典。

*支持utf-8和unicode编码。

==概要:

==一个简单的脚本提供一个简单的脚本(bin/pymmseg),可以从标准输入读取
文本,并将分段结果打印到标准输出。请尝试pymmseg-h以获取有关选项的帮助。

==作为python模块


若要在普通python程序中使用pymmseg cpp,请首先导入模块,然后通过加载字典来初始化:


在调用加载词典之前,请自定义
``mmseg.dictionary.dictionaries`。


tok.end)

===自定义字典

包含字符的频率,空格,然后字符

===单词格式。dic

*每行包含单词的长度,空格,然后单词

===警告

*单词的长度表示单词中的字符数,不是字节数
*words.dic的格式与chars.dic不同,请参见上文
*所有dict文件的末尾都应该有一个新行

==要求:


*python 2.5+
*g++

==安装:


pip install pymmseg cpp

轻松安装pymmseg cpp

下载包,网址为http://code.google.com/p/pymmseg-cpp/downloads/list。如果下载
源tarball,则需要使用以下方法编译它:


如果下载预编译版本,则可以跳过此步骤。
然后将pymmseg目录复制到python的包路径。例如
/usr/lib/python2.5/site-packages/。现在您可以在
应用程序中使用pymmseg。


==贡献:


>由德国m.bravo(kronuz)贡献的python本机扩展代码
=>在python下提高了大约400%的性能。

==许可证:

(麻省理工学院许可证)


向任何获得本软件副本和相关文档文件(即“软件”)的人提供,在不受限制的情况下使用本软件,包括但不限于使用、复制、修改、合并、发布、分发、再授权和/或出售本软件副本的权利,以及允许本软件的用户为此而提供的软件,须符合以下条件:


上述版权声明和本许可声明应包含在软件的所有副本或实质部分中。

包括但不限于“BR/>适销性、适合特定用途和不侵权的保证。对于由软件或软件的使用或其他交易引起的、由软件引起的或与之相关的任何
索赔、损害赔偿或其他责任,无论是在合同诉讼中,
侵权或其他。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java爬虫获取外部网站搜索结果   java Bluestack未连接到eclipse   java如何从ConstraintViolationException Hibernamte获取数据库字段名   HttpResponse HttpResponse=httpClient引发java运行时错误。执行(httpPost);   Jama中矩阵的java点积和叉积   java有什么方法可以唯一地识别可扩展设备吗?   java我需要用*来写我的名字,但我不断遇到一个错误,我对编码很陌生   java变量是在内部类中访问的。需要被宣布为最终决定。但我不想宣布最终结果   java如何缩短base64图像字符串,Android?   JavaSpringMVC:计划方法不自动触发   图形学习Java 2D API的好资源是什么?   如何在java中对方法进行排队   java JavaFX多行   java Selenium无法在[链接]上找到基于CSS元素的密码字段元素http://www.cartasi.it/gtwpages/index.jsp   Java中的equals()和hashCode()契约   软删除情况下的java Hibernate二级缓存   java为什么这段代码要两次调用这些方法?