bashkir文本词性标注的实用性
bashkirtagger的Python项目详细描述
此模块包含一个用于bashkir文本词性标记的实用程序。 该工具基于lstm神经网络,并考虑了词序。
安装
该工具可以与PIP一起安装
pip3 install bashkirtagger
注意:必须单独下载实用程序的型号。 由于项目规模的限制,我不能把它放在 在Github或Pipy上。启动程序后,它将下载 打开模型。你不必采取任何行动。但是你 需要一个互联网连接和大约50兆字节的输入 交通。
用法示例
一次标记一个句子
>>> from bashkirtagger import Tagger >>> t = Tagger() >>> sentence = "Бер кеше йәшәй." >>> tagged_sentence = t.predict_pos(sentence) >>> print(tagged_sentence) [('бер', 'NUM'), ('кеше', 'S'), ('йәшәй', 'V')]
标记包含多个句子的文本
>>> from bashkirtagger import Tagger >>> t = Tagger() >>> text = "Бер кеше йәшәй. Кем белә." >>> tagged_text = t.text_prc(text) >>> print(tagged_text) [[('бер', 'NUM'), ('кеше', 'S'), ('йәшәй', 'V')], [("кем", "SPRO"), ("белә", "V")]]
数据
从网上收集的模型 被bashmorph标记。
此工具可用于消除基于规则的标记的歧义。
你可以自己把训练好的模特包起来。
模型评估:损失:0.0015-ACC:0.9996-VAL椆U损失:0.0975-VAL椆U ACC:0.9847。