鞑靼语形态分析器
py_tat_morphan的Python项目详细描述
鞑靼语的形态分析器。使用HFST工具。 使用此工具的Web窗体:http://tatmorphan.pythonanywhere.com/
要安装:
$pip安装py_tat_morphan
或
$git克隆https://yaugear@bitbucket.org/yaugear/py_tat_morphan.git
$cd py_tat_morphan
$python setup.pu安装
使用查找:
$tat_morphan_查找
处理文本:
$tat_morphan_process_text<;文件名>;
要处理整个文件夹:
$tat_morphan_process_folder<;path_from>;
或
$tat_morphan_process_folder<;path_from>;<;path_to>;
注意:如果您不提供<;path\u to>;,program会将分析过的文本放在接近初始值的文件夹中,并加上“\u analyted”后缀。例如,如果<;path_from>;='/home/ramil/mytexts/',则<;path_to>;='/home/ramil/mytexts_analyted/'。
用作python模块:
>>> from py_tat_morphan.morphan import Morphan >>> morphan = Morphan() >>> print(morphan.analyse('урманнарга')) урман+N+PL(ЛАр)+DIR(ГА); >>> print(morphan.lemma('урманнарга')) [u'\u0443\u0440\u043c\u0430\u043d'] >>> print(morphan.pos('урманнарга')) [u'N'] >>> print(morphan.process_text('Без урманга барабыз.')) Без без+N+Sg+Nom;без+PN; урманга урман+N+Sg+DIR(ГА); барабыз бар+V+PRES(Й)+1PL(бЫз); . Type1
>>> print(morphan.analyse_text('Без урманга барабыз.')) [[(u'\u0411\u0435\u0437', u'\u0431\u0435\u0437+N+Sg+Nom;\u0431\u0435\u0437+PN;'), (u'\u0443\u0440\u043c\u0430\u043d\u0433\u0430', u'\u0443\u0440\u043c\u0430\u043d+N+Sg+DIR(\u0413\u0410);'), (u'\u0431\u0430\u0440\u0430\u0431\u044b\u0437', u'\u0431\u0430\u0440+V+PRES(\u0419)+1PL(\u0431\u042b\u0437);'), (u'.', 'Type1')]] >>> print(morphan.disambiguate_text('Язгы ташуларда көймә йөздерәбез.')) [[(u'\u042f\u0437\u0433\u044b', u'\u044f\u0437\u0433\u044b+Adj;'), (u'\u0442\u0430\u0448\u0443\u043b\u0430\u0440\u0434\u0430', u'\u0442\u0430\u0448\u0443+N+PL(\u041b\u0410\u0440)+LOC(\u0414\u0410);\u0442\u0430\u0448\u044b+V+VN_1(\u0443/\u04af/\u0432)+PL(\u041b\u0410\u0440)+LOC(\u0414\u0410);'), (u'\u043a\u04e9\u0439\u043c\u04d9', u'\u043a\u04e9\u0439\u043c\u04d9+N+Sg+Nom'), (u'\u0439\u04e9\u0437\u0434\u0435\u0440\u04d9\u0431\u0435\u0437', u'\u0439\u04e9\u0437+V+CAUS(\u0414\u042b\u0440)+PRES(\u0419)+1PL(\u0431\u042b\u0437);\u0439\u04e9\u0437\u0434\u0435\u0440+V+PRES(\u0419)+1PL(\u0431\u042b\u0437);'), (u'.', 'Type1')]]
测试:
$python setup.py测试
版本:
1.2.1条 |使用hfst python包
1.2.2条 |将tat_morphan_lookup和tat_morphan_process_文本脚本添加到bin/
1.2.3条 |修正了异常字典
1.2.4条 |已修复为使用C HFST软件包
在bin/
添加了Russain词法分析器(pymorphy2包)以检测文本中的俄语单词
1.2.5条 |固定的形态语音学和形态粘着规则
将文件夹脚本的tat morphan状态添加到bin/
1.2.6条 |固定字典集
1.2.7条 |使用上下文规则方法添加了形态消歧阶段
- 热门话题
- Gson类中的java验证错误 If和elseif之间的java差异? 字典Java8地图。输入比较器 java连接到远程计算机以获得WMI支持 java如何使用改型处理JSON对象中的空值 在Java中使用Comparator时不可编译的源代码 java将Jar添加到JSP的运行时路径 带有随机对象的while循环的java大O时间复杂性 java可以在不考虑参数的情况下模拟方法吗? java我有一个简单的代码,它不工作。无法修复错误“println” 向eclipse添加Xively java库 java是否可以启用本机代码的缓存? 全局变量如何在Java中的所有类之间共享要使用的语言环境? Java内存游戏如何翻转单个卡?