鞑靼语形态分析器

py_tat_morphan的Python项目详细描述


鞑靼语的形态分析器。使用HFST工具。 使用此工具的Web窗体:http://tatmorphan.pythonanywhere.com/

要安装:

$pip安装py_tat_morphan

$git克隆https://yaugear@bitbucket.org/yaugear/py_tat_morphan.git

$cd py_tat_morphan

$python setup.pu安装

使用查找:

$tat_morphan_查找

处理文本:

$tat_morphan_process_text<;文件名>;

要处理整个文件夹:

$tat_morphan_process_folder<;path_from>;

$tat_morphan_process_folder<;path_from>;<;path_to>;

注意:如果您不提供<;path\u to>;,program会将分析过的文本放在接近初始值的文件夹中,并加上“\u analyted”后缀。例如,如果<;path_from>;='/home/ramil/mytexts/',则<;path_to>;='/home/ramil/mytexts_analyted/'。

用作python模块:

>>> from py_tat_morphan.morphan import Morphan
>>> morphan = Morphan()
>>> print(morphan.analyse('урманнарга'))
урман+N+PL(ЛАр)+DIR(ГА);
>>> print(morphan.lemma('урманнарга'))
[u'\u0443\u0440\u043c\u0430\u043d']
>>> print(morphan.pos('урманнарга'))
[u'N']
>>> print(morphan.process_text('Без урманга барабыз.'))
Без
без+N+Sg+Nom;без+PN;
урманга
урман+N+Sg+DIR(ГА);
барабыз
бар+V+PRES(Й)+1PL(бЫз);
.
Type1
>>> print(morphan.analyse_text('Без урманга барабыз.'))
[[(u'\u0411\u0435\u0437', u'\u0431\u0435\u0437+N+Sg+Nom;\u0431\u0435\u0437+PN;'), (u'\u0443\u0440\u043c\u0430\u043d\u0433\u0430', u'\u0443\u0440\u043c\u0430\u043d+N+Sg+DIR(\u0413\u0410);'), (u'\u0431\u0430\u0440\u0430\u0431\u044b\u0437', u'\u0431\u0430\u0440+V+PRES(\u0419)+1PL(\u0431\u042b\u0437);'), (u'.', 'Type1')]]
>>> print(morphan.disambiguate_text('Язгы ташуларда көймә йөздерәбез.'))
[[(u'\u042f\u0437\u0433\u044b', u'\u044f\u0437\u0433\u044b+Adj;'), (u'\u0442\u0430\u0448\u0443\u043b\u0430\u0440\u0434\u0430', u'\u0442\u0430\u0448\u0443+N+PL(\u041b\u0410\u0440)+LOC(\u0414\u0410);\u0442\u0430\u0448\u044b+V+VN_1(\u0443/\u04af/\u0432)+PL(\u041b\u0410\u0440)+LOC(\u0414\u0410);'), (u'\u043a\u04e9\u0439\u043c\u04d9', u'\u043a\u04e9\u0439\u043c\u04d9+N+Sg+Nom'), (u'\u0439\u04e9\u0437\u0434\u0435\u0440\u04d9\u0431\u0435\u0437', u'\u0439\u04e9\u0437+V+CAUS(\u0414\u042b\u0440)+PRES(\u0419)+1PL(\u0431\u042b\u0437);\u0439\u04e9\u0437\u0434\u0435\u0440+V+PRES(\u0419)+1PL(\u0431\u042b\u0437);'), (u'.', 'Type1')]]

测试:

$python setup.py测试

版本:

1.2.1条 |使用hfst python包

1.2.2条 |将tat_morphan_lookup和tat_morphan_process_文本脚本添加到bin/

1.2.3条 |修正了异常字典

1.2.4条 |已修复为使用C HFST软件包

在bin/
添加了Russain词法分析器(pymorphy2包)以检测文本中的俄语单词

1.2.5条 |固定的形态语音学和形态粘着规则

将文件夹脚本的tat morphan状态添加到bin/

1.2.6条 |固定字典集

1.2.7条 |使用上下文规则方法添加了形态消歧阶段

修复了俄语单词检测
修复文件夹脚本的tat morphan状态

1.2.8条 |用“-”修复了错误

为上下文规则添加了第五种类型。现在您可以检查单词是否以大写字母开头
added是检查amtype格式是否正确的amtype模式方法

1.2.9条 |修正了异常字典

修复字典集合。添加了俄罗斯城镇名称
修复了借词的一些错误

1.2.10条 |修复了消除歧义的错误

修复异常字典

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Gson类中的java验证错误   If和elseif之间的java差异?   字典Java8地图。输入比较器   java连接到远程计算机以获得WMI支持   java如何使用改型处理JSON对象中的空值   在Java中使用Comparator时不可编译的源代码   java将Jar添加到JSP的运行时路径   带有随机对象的while循环的java大O时间复杂性   java可以在不考虑参数的情况下模拟方法吗?   java我有一个简单的代码,它不工作。无法修复错误“println”   向eclipse添加Xively java库   java是否可以启用本机代码的缓存?   全局变量如何在Java中的所有类之间共享要使用的语言环境?   Java内存游戏如何翻转单个卡?