使用启发式算法将韩文文本分成句子。

kss的Python项目详细描述


韩语分句器

使用启发式算法将韩文文本分成句子。这个算法的灵感来自于金永云(eunggyun kim)jason.eg@kakaocorp.com>;,他是kakao nlp的领导人,也是韩国最杰出的nlp工程师之一。

我从this article开始了这个项目,我们在测试集上取得了最好的结果。当然,它对口头和书面表达都非常有力。

安装

该包列在python包索引(pypi)中,因此您可以使用pip:

$ pip install kss

用法

importksss="회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."forsentinkss.split_sentences(s):print(sent)

结果如下所示:

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

演示

要求

    C++ 11
    • 支持C++11构建的GCC或Clang。
  • Python3

提供的google测试二进制文件是在macos上构建的。

从头开始构建

C++

$ mkdir bld
$ cd bld
$ cmake ..
$ make
$ ./sentsplit

注意:提供的google测试二进制文件仅构建在macos上。因此,不能在linux上构建测试二进制文件。

#include<iostream>#include"sentence_splitter.h"intmain(){std::strings="회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습.";for(autosent:splitSentences(s)){std::cout<<sent<<std::endl;}return0;}

结果如下所示:

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

Python

python包装器使用cython实现。您可以通过下面的命令执行生成任务。

$ python setup.py install --record files.txt
or
$ pip install .

卸载

$ xargs rm -rf < files.txt
or
$ pip uninstall kss

PYPI

$ python setup.py sdist
$ twine upload --repository-url https://test.pypi.org/legacy/ dist/*

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
用户界面如何在JavaGUI中为按钮创建各种颜色?   使用MSCAPI的RSA密钥包装的java使用   java Spring数据Redis JedisConnectionException:意外的流结束   java饼图未显示预期输出   java hystrixCommand注释commandKey的用途是什么   windows java可以从cmd运行jar,但不能通过双击来运行   java在单击按钮时遍历XML节点   java试图使用日期(int,int,int)构造函数   带有Buildship 2子项目的java不作为项目依赖项链接   java jsonrpc4j:如何从服务器获取列表<SomeObject>?   用于Java应用程序的内存设置MaxDirectMemory和MaxHeapMemory   java如何从以下类型格式化日期   javayoutube。搜索列表搜索不返回任何内容   java My参数在方法中不起作用,因为泛型存在问题   java如何将Map<Key1Type,Val1Type>转换为Map<Key1Type,Val2Type>   JavaJUnit测试:测试用例的改进,测试数组列表的长度?   java如何在Android中解析带有属性值的xml数据?   使用Hibernate对枚举类型进行Java8bean验证