toki Python绑定

pytoki的Python项目详细描述


关于

托基图书馆最初是由弗罗茨瓦夫科技大学的托马什·尼亚托夫斯基和亚当·拉齐舍夫斯基开发的。该库的主要目的是提供基于快速SRX的标记器。下面的Python库是一个Python绑定到C++ ToKi的集合,它在Alphamoon上被进一步开发。在

最初的toki已经在gnulgpl3.0下发布。可以从git存储库获取源代码:

git clone http://nlp.pwr.wroc.pl/corpus2.git # contains pwrutils library that is needed for building toki
git clone http://nlp.pwr.wroc.pl/toki.git

要构建代码,您需要cmake2.8或更高版本。此外,您还需要:

  • 重症监护病房4.2
  • 增压1.41或更高(用1.41和1.42测试)
  • 洛基语(libloki dev)
  • libxml++2.6(支持SRX)
  • 来自corpus2存储库的libpwrutils(其构建过程基于CMake,请参见项目站点)
  1. {cdiser要创建Toki::get_named_config(配置名)并将获取的对象传递给Toki::LayerTokenizer构造函数。在
  2. 要使用语句拆分器创建一个工作的标记器,首先实例化一个Toki::LayerTokenizer对象,然后在它周围包装一个Toki::SentenceSplitter。sentencer对象包含一个方便的has\u more-get_next_句子接口。默认配置加载句子分割规则,因此适合于此目的。 注意:使用自定义配置时,请检查它是否包含工作句拆分规则。否则,Toki::SentenceSplitter将缓冲所有输入,并最终生成一个包含所有标记的巨大句子。在

示例

目前,Python接口很简单,只允许在序列中进行句子分割和标记,并将波兰语作为默认语言。在

分句:

^{pr2}$

句子标记化:

importtokitokenizer=toki.Toki()tokenizer.get_all_sentences_tokenized("To jest zdanie. To jest np. inne zdanie.")

在即将发布的版本中将支持更多的语言。在

建议尽可能从源代码构建包,以利用AVX和其他CPU指令。包最初是用core2优化构建的,因此任何比这个旧的CPU或者没有MMXSSESSE2SSE3和{}的CPU都必须从源代码构建包。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何计算大于平均值的数字的百分比。?   JavaFX中后台执行任务的服务   xml解析用于解析java中推荐的xml解析器的小文档   java Nativescript+无法实例化接收器。。。。没找到上课的机会   maven是在数百个Java测试类上应用自定义JUnit测试运行程序的更简单方法   泛型如何引用接口在Java中实现的类类型?   java序列化程序SimpleXML只发送第一行   java字符串组合/排列   java无法创建EMRclient Sdkclientexception   JavaMaven不生成“persistence.xml”文件   java找不到主要方法   java中的正则表达式正负双精度   接口对于我试图解决的问题,有Java设计模式吗?   java在创建bean时获取异常   java如何创建<?使用JCodeModel扩展子类型>?   java在javafx中制作搜索栏   java Compare Hashmap with List=new Arraylist()   java接口与具体类