toki Python绑定
pytoki的Python项目详细描述
关于
托基图书馆最初是由弗罗茨瓦夫科技大学的托马什·尼亚托夫斯基和亚当·拉齐舍夫斯基开发的。该库的主要目的是提供基于快速SRX的标记器。下面的Python库是一个Python绑定到C++ ToKi的集合,它在Alphamoon上被进一步开发。在
最初的toki已经在gnulgpl3.0下发布。可以从git存储库获取源代码:
git clone http://nlp.pwr.wroc.pl/corpus2.git # contains pwrutils library that is needed for building toki
git clone http://nlp.pwr.wroc.pl/toki.git
要构建代码,您需要cmake2.8或更高版本。此外,您还需要:
- 重症监护病房4.2
- 增压1.41或更高(用1.41和1.42测试)
- 洛基语(libloki dev)
- libxml++2.6(支持SRX)
- 来自corpus2存储库的libpwrutils(其构建过程基于CMake,请参见项目站点)
- {cdiser要创建
Toki::get_named_config(配置名)并将获取的对象传递给 Toki::LayerTokenizer
构造函数。在 - 要使用语句拆分器创建一个工作的标记器,首先实例化一个
Toki::LayerTokenizer
对象,然后在它周围包装一个Toki::SentenceSplitter
。sentencer对象包含一个方便的has\u more-get_next_句子接口。默认配置加载句子分割规则,因此适合于此目的。 注意:使用自定义配置时,请检查它是否包含工作句拆分规则。否则,Toki::SentenceSplitter
将缓冲所有输入,并最终生成一个包含所有标记的巨大句子。在
示例
目前,Python接口很简单,只允许在序列中进行句子分割和标记,并将波兰语作为默认语言。在
分句:
^{pr2}$句子标记化:
importtokitokenizer=toki.Toki()tokenizer.get_all_sentences_tokenized("To jest zdanie. To jest np. inne zdanie.")
在即将发布的版本中将支持更多的语言。在
建议尽可能从源代码构建包,以利用AVX和其他CPU指令。包最初是用core2
优化构建的,因此任何比这个旧的CPU或者没有MMX
、SSE
、SSE2
、SSE3
和{
- 项目
标签: