pymmseg-cpp,一个高性能的中文分词工具。
pymmseg的Python项目详细描述
pymmseg cpp
作者:pluskid&kronuz
http://github.com/pluskid/pymmseg cpp
==描述:
pymmseg cpp是rmmseg cpp的python接口。rmmseg cpp是一个高性能的ruby中文分词工具。但是,
核心部分是用C++编写的,独立于Ruby。因此,我决定为它编写一个python接口,以便在python项目中使用它。
==特性:
*运行速度快,内存消耗小。
*支持用户自定义字典。
*支持utf-8和unicode编码。
==概要:
==一个简单的脚本提供一个简单的脚本(bin/pymmseg),可以从标准输入读取
文本,并将分段结果打印到标准输出。请尝试pymmseg-h以获取有关选项的帮助。
==作为python模块
若要在普通python程序中使用pymmseg cpp,请首先导入模块,然后通过加载字典来初始化:
在调用加载词典之前,请自定义
``mmseg.dictionary.dictionaries`。
tok.end)
===自定义字典
包含字符的频率,空格,然后字符
===单词格式。dic
*每行包含单词的长度,空格,然后单词
===警告
*单词的长度表示单词中的字符数,不是字节数
*words.dic的格式与chars.dic不同,请参见上文
*所有dict文件的末尾都应该有一个新行
==要求:
*python 2.5+
*g++
==安装:
pip install pymmseg cpp
轻松安装pymmseg cpp
下载包,网址为http://code.google.com/p/pymmseg-cpp/downloads/list。如果下载
源tarball,则需要使用以下方法编译它:
如果下载预编译版本,则可以跳过此步骤。
然后将pymmseg目录复制到python的包路径。例如
/usr/lib/python2.5/site-packages/。现在您可以在
应用程序中使用pymmseg。
==贡献:
>由德国m.bravo(kronuz)贡献的python本机扩展代码
=>在python下提高了大约400%的性能。
==许可证:
(麻省理工学院许可证)
向任何获得本软件副本和相关文档文件(即“软件”)的人提供,在不受限制的情况下使用本软件,包括但不限于使用、复制、修改、合并、发布、分发、再授权和/或出售本软件副本的权利,以及允许本软件的用户为此而提供的软件,须符合以下条件:
上述版权声明和本许可声明应包含在软件的所有副本或实质部分中。
包括但不限于“BR/>适销性、适合特定用途和不侵权的保证。对于由软件或软件的使用或其他交易引起的、由软件引起的或与之相关的任何
索赔、损害赔偿或其他责任,无论是在合同诉讼中,
侵权或其他。
作者:pluskid&kronuz
http://github.com/pluskid/pymmseg cpp
==描述:
pymmseg cpp是rmmseg cpp的python接口。rmmseg cpp是一个高性能的ruby中文分词工具。但是,
核心部分是用C++编写的,独立于Ruby。因此,我决定为它编写一个python接口,以便在python项目中使用它。
==特性:
*运行速度快,内存消耗小。
*支持用户自定义字典。
*支持utf-8和unicode编码。
==概要:
==一个简单的脚本提供一个简单的脚本(bin/pymmseg),可以从标准输入读取
文本,并将分段结果打印到标准输出。请尝试pymmseg-h以获取有关选项的帮助。
==作为python模块
若要在普通python程序中使用pymmseg cpp,请首先导入模块,然后通过加载字典来初始化:
在调用加载词典之前,请自定义
``mmseg.dictionary.dictionaries`。
tok.end)
===自定义字典
包含字符的频率,空格,然后字符
===单词格式。dic
*每行包含单词的长度,空格,然后单词
===警告
*单词的长度表示单词中的字符数,不是字节数
*words.dic的格式与chars.dic不同,请参见上文
*所有dict文件的末尾都应该有一个新行
==要求:
*python 2.5+
*g++
==安装:
pip install pymmseg cpp
轻松安装pymmseg cpp
下载包,网址为http://code.google.com/p/pymmseg-cpp/downloads/list。如果下载
源tarball,则需要使用以下方法编译它:
如果下载预编译版本,则可以跳过此步骤。
然后将pymmseg目录复制到python的包路径。例如
/usr/lib/python2.5/site-packages/。现在您可以在
应用程序中使用pymmseg。
==贡献:
>由德国m.bravo(kronuz)贡献的python本机扩展代码
=>在python下提高了大约400%的性能。
==许可证:
(麻省理工学院许可证)
向任何获得本软件副本和相关文档文件(即“软件”)的人提供,在不受限制的情况下使用本软件,包括但不限于使用、复制、修改、合并、发布、分发、再授权和/或出售本软件副本的权利,以及允许本软件的用户为此而提供的软件,须符合以下条件:
上述版权声明和本许可声明应包含在软件的所有副本或实质部分中。
包括但不限于“BR/>适销性、适合特定用途和不侵权的保证。对于由软件或软件的使用或其他交易引起的、由软件引起的或与之相关的任何
索赔、损害赔偿或其他责任,无论是在合同诉讼中,
侵权或其他。