oslo bergen tagger的python库

obt的Python项目详细描述


这是一个用于The Oslo-Bergen Tagger的python库,它解析输出 以友好的格式标记。这里只支持python 3 时间

图书馆正在测试中。需要的东西见Roadmap 在v1.0.0发布之前实现。

安装

你需要安装Oslo Bergen Tagger和环境 变量OBT_PATH设置为其安装目录的路径。你 可以使用下面提供的代码段,或使用 The-Oslo-Bergen-Tagger GitHub repository中的说明。这个 下面的代码片段将其安装在主目录中。如果你愿意 若要将其安装到其他位置,可以更改INSTALL_DIR 变量,位于首选安装目录的第一行。

INSTALL_DIR=$HOMETHIS_DIR=$PWDcd$INSTALL_DIR
git clone git@github.com:noklesta/The-Oslo-Bergen-Tagger.git
cd The-Oslo-Bergen-Tagger
./bootstrap.sh
exportOBT_PATH=$INSTALL_DIR/The-Oslo-Bergen-Tagger
echo'export OBT_PATH=$OBT_PATH' >> $HOME/.bashrc
cd$THIS_DIR

然后可以使用pip安装这个python库。为所有人安装 用户,请执行:

sudo pip3 install obt

要只为用户安装,请执行以下操作:

pip3 install --user obt

你很好去!

用法

首先,导入库

importobt

然后,可以通过将字符串传递给tag_bm函数来标记它:

my_string="Jeg er streng."tags=obt.tag_bm(my_string)

或者可以使用file关键字参数传递文件名:

tags=obt.tag_bm(file="my_document.txt")

生成的tags将是一个标记对象数组,如下所示:

[{"tall":"ent","type":"pers hum","base":"jeg","person":"1","word_tag":"<jeg>","kasus":"nom","raw_tags":"pron ent pers hum nom 1","word":"Jeg","ordklasse":"pron"},{"word_tag":"<er>","base":"v\u00e6re","tilleggstagger":["a5","pr1","pr2","<aux1/perf_part>"],"tid":"pres","raw_tags":"verb pres a5 pr1 pr2 <aux1/perf_part>","word":"er","ordklasse":"verb"},{"type":"appell","best":"ub","base":"streng","word_tag":"<streng>","tall":"ent","ordklasse":"subst","raw_tags":"subst appell mask ub ent","word":"streng","kj\u00f8nn":"mask"},{"word_tag":"<.>","base":"$.","tilleggstagger":["<<<","<punkt>","<<<"],"raw_tags":"clb <<< <punkt> <<<","word":".","ordklasse":"clb"}]

您可以使用^{tt6}轻松地将其保存到json文件中$ 功能:

obt.save_json(tags,'my_tags.json')

格式

这里将提供标记格式的文档。

路线图

在v1.0.0发布之前,应选中以下框:-[] 将“tilleggstagger”放入tags对象中的适当项中。-[]实施 用于./tag-nostat-bm.shfrom的函数 https://github.com/noklesta/The-Oslo-Bergen-Tagger-[]实现 用于./tag-nostat-nn.sh的函数 https://github.com/noklesta/The-Oslo-Bergen-Tagger-[]Python2 支持

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
swing Java按钮/网格布局   java列出Google日历中的所有事件   java无效:单击API publisher test按钮后连接到后端时出错   带有内部赋值的java While循环导致checkstyle错误   java为什么trimToSize/ensureCapacity方法提供“公共”级访问?   文件输出流的java问题   ListIterator和并发修改异常的java问题   java如何使用两个URL映射   无法识别使用“./../”构造的字符串java相对路径,为什么?   首次写入remotelyclosedsocket不会触发异常,对吗?JAVA   java OneDrive REST API为文件上载提供了400个无效谓词   Java泛型、集合接口和对象类的问题   OpenSSL Java安全提供程序   jmeter java运行jmx禁用操作