Python pytoki包_程序模块 - PyPI

toki Python绑定

pytoki的Python项目详细描述

关于

托基图书馆最初是由弗罗茨瓦夫科技大学的托马什·尼亚托夫斯基和亚当·拉齐舍夫斯基开发的。该库的主要目的是提供基于快速SRX的标记器。下面的Python库是一个Python绑定到C++ ToKi的集合，它在Alphamoon上被进一步开发。在

最初的toki已经在gnulgpl3.0下发布。可以从git存储库获取源代码：

git clone http://nlp.pwr.wroc.pl/corpus2.git # contains pwrutils library that is needed for building toki
git clone http://nlp.pwr.wroc.pl/toki.git

要构建代码，您需要cmake2.8或更高版本。此外，您还需要：

重症监护病房4.2
增压1.41或更高（用1.41和1.42测试）
洛基语（libloki dev）
libxml++2.6（支持SRX）
来自corpus2存储库的libpwrutils（其构建过程基于CMake，请参见项目站点）

{cdiser要创建Toki::get_named_config（配置名）并将获取的对象传递给Toki::LayerTokenizer构造函数。在
要使用语句拆分器创建一个工作的标记器，首先实例化一个Toki::LayerTokenizer对象，然后在它周围包装一个Toki::SentenceSplitter。sentencer对象包含一个方便的has\u more-get_next_句子接口。默认配置加载句子分割规则，因此适合于此目的。注意：使用自定义配置时，请检查它是否包含工作句拆分规则。否则，Toki::SentenceSplitter将缓冲所有输入，并最终生成一个包含所有标记的巨大句子。在

示例

目前，Python接口很简单，只允许在序列中进行句子分割和标记，并将波兰语作为默认语言。在

分句：

^{pr2}$

句子标记化：

importtokitokenizer=toki.Toki()tokenizer.get_all_sentences_tokenized("To jest zdanie. To jest np. inne zdanie.")

在即将发布的版本中将支持更多的语言。在

建议尽可能从源代码构建包，以利用AVX和其他CPU指令。包最初是用core2优化构建的，因此任何比这个旧的CPU或者没有MMX、SSE、SSE2、SSE3和{}的CPU都必须从源代码构建包。在

欢迎加入QQ群-->： 979659372

pytoki 0.1.2

pytoki的Python项目详细描述

关于

示例

推荐PyPI第三方库

null

link.dbrequest

redsolutioncms.django-tinymce

atd-jobs-util-dev

resume

pycopy-test

odoo8-addon-hr-employee-legacy-id

keys

slag

odoo12-addon-sale-comment-template

more.chameleon

repchar

keras-efficientnets

robotframework-requestslogger

pseuserver

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

pytoki 0.1.2

pytoki的Python项目详细描述

关于

示例

推荐PyPI第三方库

null

link.dbrequest

redsolutioncms.django-tinymce

atd-jobs-util-dev

resume

pycopy-test

odoo8-addon-hr-employee-legacy-id

keys

slag

odoo12-addon-sale-comment-template

more.chameleon

repchar

keras-efficientnets

robotframework-requestslogger

pseuserver

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签