bashkir文本词性标注的实用性

bashkirtagger的Python项目详细描述


此模块包含一个用于bashkir文本词性标记的实用程序。 该工具基于lstm神经网络,并考虑了词序。

安装

该工具可以与PIP一起安装

pip3 install bashkirtagger

注意:必须单独下载实用程序的型号。 由于项目规模的限制,我不能把它放在 在Github或Pipy上。启动程序后,它将下载 打开模型。你不必采取任何行动。但是你 需要一个互联网连接和大约50兆字节的输入 交通。

用法示例

一次标记一个句子

>>> from bashkirtagger import Tagger
>>> t = Tagger()
>>> sentence = "Бер кеше йәшәй."
>>> tagged_sentence = t.predict_pos(sentence)
>>> print(tagged_sentence)
[('бер', 'NUM'), ('кеше', 'S'), ('йәшәй', 'V')]

标记包含多个句子的文本

>>> from bashkirtagger import Tagger
>>> t = Tagger()
>>> text = "Бер кеше йәшәй. Кем белә."
>>> tagged_text = t.text_prc(text)
>>> print(tagged_text)
[[('бер', 'NUM'), ('кеше', 'S'), ('йәшәй', 'V')], [("кем", "SPRO"), ("белә", "V")]]

标记集

基于bashkir语言Bashmorph morphological analyzer的标记集 作者:鲍里斯·奥雷科夫。

  • S:实质性
  • v:动词
  • 形容词
  • num:数字
  • spro:代词
  • 部分:粒子
  • 国际:交叉
  • post:posposposition
  • 连接

有关详细信息,请参见paper

数据

从网上收集的模型 被bashmorph标记。

此工具可用于消除基于规则的标记的歧义。

你可以自己把训练好的模特包起来。

模型评估:损失:0.0015-ACC:0.9996-VAL椆U损失:0.0975-VAL椆U ACC:0.9847。

联系人

您可以通过电子邮件联系项目负责人:

Boris Orekhov(永不停歇)

@Gmail

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
将值从php项目传递到java项目   java Selenium方法visibilityOf似乎不起作用?   java如何将方法调用传递给JOptionPane。showMessageDialog参数   将Excel数据复制到文本文件Java(POI)   使用XSLT转换XML时的java ArrayIndexOutOfBoundsException   数组警告:[未选中]未选中JAVA中的转换   BasicService API中的java JNLP:getCodeBase()方法不返回完整的代码库路径   java如何对列表中的一个字段执行二进制搜索,而该字段是另一个类?   java Reducer节点需要很长时间才能接收其记录   java在模拟时递归调用系统   javaxmldom解析   java通过部分键使Guava缓存无效   Eclipse中缺少java类路径条目   java无法使用AuthenticationException的子类   java jackrabbit使用webdav编辑存储库文件   如何在Java中编写一个计时器来跟踪多个事件?   Java:给定日期的迭代   java写注释,防止在参数无效时调用方法   调整Java大小如何自动设置img的宽度。GetScaleInstance();?