oslo bergen tagger的python库
obt的Python项目详细描述
这是一个用于The Oslo-Bergen Tagger的python库,它解析输出 以友好的格式标记。这里只支持python 3 时间
图书馆正在测试中。需要的东西见Roadmap 在v1.0.0发布之前实现。
安装
你需要安装Oslo Bergen Tagger和环境 变量OBT_PATH设置为其安装目录的路径。你 可以使用下面提供的代码段,或使用 The-Oslo-Bergen-Tagger GitHub repository中的说明。这个 下面的代码片段将其安装在主目录中。如果你愿意 若要将其安装到其他位置,可以更改INSTALL_DIR 变量,位于首选安装目录的第一行。
INSTALL_DIR=$HOMETHIS_DIR=$PWDcd$INSTALL_DIR git clone git@github.com:noklesta/The-Oslo-Bergen-Tagger.git cd The-Oslo-Bergen-Tagger ./bootstrap.sh exportOBT_PATH=$INSTALL_DIR/The-Oslo-Bergen-Tagger echo'export OBT_PATH=$OBT_PATH' >> $HOME/.bashrc cd$THIS_DIR
然后可以使用pip安装这个python库。为所有人安装 用户,请执行:
sudo pip3 install obt
要只为用户安装,请执行以下操作:
pip3 install --user obt
你很好去!
用法
首先,导入库
importobt
然后,可以通过将字符串传递给tag_bm函数来标记它:
my_string="Jeg er streng."tags=obt.tag_bm(my_string)
或者可以使用file关键字参数传递文件名:
tags=obt.tag_bm(file="my_document.txt")
生成的tags将是一个标记对象数组,如下所示:
[{"tall":"ent","type":"pers hum","base":"jeg","person":"1","word_tag":"<jeg>","kasus":"nom","raw_tags":"pron ent pers hum nom 1","word":"Jeg","ordklasse":"pron"},{"word_tag":"<er>","base":"v\u00e6re","tilleggstagger":["a5","pr1","pr2","<aux1/perf_part>"],"tid":"pres","raw_tags":"verb pres a5 pr1 pr2 <aux1/perf_part>","word":"er","ordklasse":"verb"},{"type":"appell","best":"ub","base":"streng","word_tag":"<streng>","tall":"ent","ordklasse":"subst","raw_tags":"subst appell mask ub ent","word":"streng","kj\u00f8nn":"mask"},{"word_tag":"<.>","base":"$.","tilleggstagger":["<<<","<punkt>","<<<"],"raw_tags":"clb <<< <punkt> <<<","word":".","ordklasse":"clb"}]
您可以使用^{tt6}轻松地将其保存到json文件中$ 功能:
obt.save_json(tags,'my_tags.json')
格式
这里将提供标记格式的文档。
路线图
在v1.0.0发布之前,应选中以下框:-[] 将“tilleggstagger”放入tags对象中的适当项中。-[]实施 用于./tag-nostat-bm.shfrom的函数 https://github.com/noklesta/The-Oslo-Bergen-Tagger-[]实现 用于./tag-nostat-nn.sh的函数 https://github.com/noklesta/The-Oslo-Bergen-Tagger-[]Python2 支持