reldi api的python库
reldi的Python项目详细描述
#reldi web服务库包含使用reldi web服务库的文档和一些方便的脚本。要访问reldi web服务,请访问[http://clarin.si/services/web/](http://clarin.si/services/web/)。
[reldi](https://reldi.spur.uzh.ch)是一个snsf资助的scopes项目,在此项目下,一系列处理南斯拉夫语的资源和工具已开发。
通过库/web服务提供的一些工具是在[janes]项目(http://nl.ijs.si/janes/)和[clarin.si]项目(https://www.clarin.si)中开发的。
web服务中包装的大多数工具都可以通过[clarin.si]从github获得。组织](https://github.com/clarinsi/)。
[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16-corpus.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16 corpus.txt)
-标注:形态句法标注中的语料库与词汇监督:斯洛文尼亚的情况[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16b-corpus.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16b corpus.txt),用于改进克罗地亚语和塞尔维亚语形态句法注释的新屈折词汇和训练语料库[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16-new.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16 new.txt)
-依赖性分析:通用克罗地亚人的属地(对塞尔维亚人有效,还有)[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/agic15-universal.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/agic15 universal.txt)
-命名实体识别:基于[[janes ner]](https://github.com/clarinsi/janes-ner)ner tagger
库
安装reldi库的最简单方法是从命令行界面通过[pypi](https://pypi.python.org/pypi)。
`````
$sudo pip install reldi
````
此存储库提供了两个方便的脚本。
如果需要音调符号还原,您需要使用`` restore_all.py``脚本。
````
$python restore_all.py hr examples/example.txt
````
请注意,批处理文件处理也可用,方法是将目录作为第二个参数,例如``python restore_all.py hr examples/````````,它将处理定义的目录中扩展名为```.txt```的所有文件。您可以通过运行``$python restore_all.py-h```获得更多信息。如果需要标记化、形态语法标记和/或元素化,您需要使用``tag_all.py``脚本。
```
$python tag_all.py hr examples/example.txt.redi
````
标记和元素化,您将使用``ner_all.py```脚本。
````
$python ner_all.py hr examples/example.txt.redi
````
您可以使用``parse-all.py``脚本。
````
$python parse-all.py hr examples/example.txt.redi
````
这三个脚本脚本的界面非常相似。
你自己的代码,你可能想直接使用库。下面我们将给出来自python交互模式的音调还原器和标记器/标记器/引理器的简单示例:
````
>;>import json
>;>from reldi.restorer import diacriticrestorer
>;>dr=diacriticrestorer('hr')
>;>;dr.authorize('my'u用户名','my'u密码')
>;gt;gt;gt;gt;json.loads(dr.restore('cudil-bi-se-da-ovo-dela'''restore'cudil-se-de-da-ovo-dela'')
{{{'orthogragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragra"se"},{'tokenids'''t''t''''tokenids'''t'tokenids'''t''''''t''''''t''''''t''''''''''t'''''t'''''t'''''t''''''''t'''''''''t'''''''t'''''t'''''''''tokenids''''''''''t't''''''''t''''''''''''t''''''''''''''''''''''''''tokenids''''''开始字符':'1','id':'t_0',"值''''''''''cudil'''''cudil''''''''''''''7''''''ID'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''cudil''''''''''''''''''''''''''结束符':'23','startchar''startchar''20','id'''t'5','value'''dela'},{'endchar''24','startchar'''24','id''''''id''24','id''''t'''t'6','value''''''''''''''24','id'''''t't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't'=标签('hr')
>;>;t.authorize('my_username','my_password')
>;>json.loads(t.taglemmatise(u'ovi alati rade dobro.'.encode('utf8'))
{'tokens':[{'endchar':'3','startchar':'1','id':'t_0','value':'ovi'},{'endchar':'9','startchar':'5','id':'t_1','value':'alati},{'endchar':'14',,"startchar''startchar'''startchar''11'''''11''''id''''id''''''''''''''''id''''''''''''''id'''''''''''''''''''''''''''startchar''''''''''''''startchar'''''''''''startchar'''''''''11''''''''''''''''''''''ID''''''''''''''''''''''''''''''''''''''"1"、"值":"alat"},{'tokenids'''t't'''t'2''id''id'''id''''id''''''id'''''id''''''''id''''''id''''''''''''''''''''''id'''''''''''''''''''''''''id''''''''''''''''''''''''''''''''''''tokenids''''''''''''''''''''''''''''''''''''''''''''''''''"1"、"id":"pt_1"、"value":'ncmpn'},{'tokenids'''t''t'''t''''t'''''t'''''id''''''t'''''t'''''t'''''''t'''''''t''''''t''''''t''''''''ncmpn'},{'tokenids'''t''t't't't't't''n'ncmpn''n'n'ncmpn'},{'''''''ncmpn'n'n''ncmpn''''''''ncmpn''''''''''''''''''''''''>>;>>来自reldi.parser import parser
>;>;p=parser('hr')
>;>p.authorize('my_username','my_password')
>;>json.loads(p.taglemmatiseparase(u'ovi alati rade dobro.'.encode('utf8'))
>;>n.authorize('my_username','my_password')
>;>json.loads(n.tag(u'ovi alati u sloveniji rade dobro.'.encode('utf8'))
>;>reldi.lexicon import lexicon
>;>lex=lexicon('hr')
>;>lex.authorize('my_username','my_password')
>;json.loads(lex.queryentries(surface="pet"))
````
[reldi](https://reldi.spur.uzh.ch)是一个snsf资助的scopes项目,在此项目下,一系列处理南斯拉夫语的资源和工具已开发。
通过库/web服务提供的一些工具是在[janes]项目(http://nl.ijs.si/janes/)和[clarin.si]项目(https://www.clarin.si)中开发的。
web服务中包装的大多数工具都可以通过[clarin.si]从github获得。组织](https://github.com/clarinsi/)。
[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16-corpus.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16 corpus.txt)
-标注:形态句法标注中的语料库与词汇监督:斯洛文尼亚的情况[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16b-corpus.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16b corpus.txt),用于改进克罗地亚语和塞尔维亚语形态句法注释的新屈折词汇和训练语料库[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16-new.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/ljubesic16 new.txt)
-依赖性分析:通用克罗地亚人的属地(对塞尔维亚人有效,还有)[[pdf]](http://nlp.ffzg.hr/data/publications/nljubesi/agic15-universal.pdf)[[bib]](http://nlp.ffzg.hr/data/publications/nljubesi/agic15 universal.txt)
-命名实体识别:基于[[janes ner]](https://github.com/clarinsi/janes-ner)ner tagger
库
安装reldi库的最简单方法是从命令行界面通过[pypi](https://pypi.python.org/pypi)。
`````
$sudo pip install reldi
````
此存储库提供了两个方便的脚本。
如果需要音调符号还原,您需要使用`` restore_all.py``脚本。
````
$python restore_all.py hr examples/example.txt
````
请注意,批处理文件处理也可用,方法是将目录作为第二个参数,例如``python restore_all.py hr examples/````````,它将处理定义的目录中扩展名为```.txt```的所有文件。您可以通过运行``$python restore_all.py-h```获得更多信息。如果需要标记化、形态语法标记和/或元素化,您需要使用``tag_all.py``脚本。
```
$python tag_all.py hr examples/example.txt.redi
````
标记和元素化,您将使用``ner_all.py```脚本。
````
$python ner_all.py hr examples/example.txt.redi
````
您可以使用``parse-all.py``脚本。
````
$python parse-all.py hr examples/example.txt.redi
````
这三个脚本脚本的界面非常相似。
你自己的代码,你可能想直接使用库。下面我们将给出来自python交互模式的音调还原器和标记器/标记器/引理器的简单示例:
````
>;>import json
>;>from reldi.restorer import diacriticrestorer
>;>dr=diacriticrestorer('hr')
>;>;dr.authorize('my'u用户名','my'u密码')
>;gt;gt;gt;gt;json.loads(dr.restore('cudil-bi-se-da-ovo-dela'''restore'cudil-se-de-da-ovo-dela'')
{{{'orthogragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragragra"se"},{'tokenids'''t''t''''tokenids'''t'tokenids'''t''''''t''''''t''''''t''''''''''t'''''t'''''t'''''t''''''''t'''''''''t'''''''t'''''t'''''''''tokenids''''''''''t't''''''''t''''''''''''t''''''''''''''''''''''''''tokenids''''''开始字符':'1','id':'t_0',"值''''''''''cudil'''''cudil''''''''''''''7''''''ID'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''cudil''''''''''''''''''''''''''结束符':'23','startchar''startchar''20','id'''t'5','value'''dela'},{'endchar''24','startchar'''24','id''''''id''24','id''''t'''t'6','value''''''''''''''24','id'''''t't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't't'=标签('hr')
>;>;t.authorize('my_username','my_password')
>;>json.loads(t.taglemmatise(u'ovi alati rade dobro.'.encode('utf8'))
{'tokens':[{'endchar':'3','startchar':'1','id':'t_0','value':'ovi'},{'endchar':'9','startchar':'5','id':'t_1','value':'alati},{'endchar':'14',,"startchar''startchar'''startchar''11'''''11''''id''''id''''''''''''''''id''''''''''''''id'''''''''''''''''''''''''''startchar''''''''''''''startchar'''''''''''startchar'''''''''11''''''''''''''''''''''ID''''''''''''''''''''''''''''''''''''''"1"、"值":"alat"},{'tokenids'''t't'''t'2''id''id'''id''''id''''''id'''''id''''''''id''''''id''''''''''''''''''''''id'''''''''''''''''''''''''id''''''''''''''''''''''''''''''''''''tokenids''''''''''''''''''''''''''''''''''''''''''''''''''"1"、"id":"pt_1"、"value":'ncmpn'},{'tokenids'''t''t'''t''''t'''''t'''''id''''''t'''''t'''''t'''''''t'''''''t''''''t''''''t''''''''ncmpn'},{'tokenids'''t''t't't't't't''n'ncmpn''n'n'ncmpn'},{'''''''ncmpn'n'n''ncmpn''''''''ncmpn''''''''''''''''''''''''>>;>>来自reldi.parser import parser
>;>;p=parser('hr')
>;>p.authorize('my_username','my_password')
>;>json.loads(p.taglemmatiseparase(u'ovi alati rade dobro.'.encode('utf8'))
>;>n.authorize('my_username','my_password')
>;>json.loads(n.tag(u'ovi alati u sloveniji rade dobro.'.encode('utf8'))
>;>reldi.lexicon import lexicon
>;>lex=lexicon('hr')
>;>lex.authorize('my_username','my_password')
>;json.loads(lex.queryentries(surface="pet"))
````