用于yandex mystem 3.1俄语形态定位分析器的python包装器。
pymystem3的Python项目详细描述
简介
本模块包含一个包装器,用于2014年6月发布的优秀俄语Yandex Mystem 3.1形态分析器。 形态分析器可以对文本进行元素化,并为每个标记派生一组形态属性。 有关该算法的更多详细信息,请参见i.segalovich«A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine»,mlmta-2003,拉斯维加斯,内华达州,美国。
python是许多计算语言学家的首选语言,包括那些使用俄语的语言学家。这种开发的主要动机是mytem没有任何python包装器,mytem是俄语中最流行的形态分析工具之一,同时还有PyMorphy2、TreeTagger和AOT。
mytem的第三个版本介绍了几个重要的改进,最重要的是词类消歧。我们的包装器以执行pos消歧的模式运行mytem。
这个包装器是麻省理工学院许可下的开源软件。但是,请考虑yandex mytem不是开源的,并且是在Yandex License的条件下授权的。
系统要求
包装器与cpython 2.6+/3.3+和pypy 1.9+一起工作。
该包装器在ubuntu linux 12.04+、mac osx 10.9+和windows 7+上进行了测试。
对于32位体系结构和freebsd平台支持,请使用ver。0.1.10条。
安装
稳定版本:https://pypi.python.org/pypi/pymystem3。您可以使用pip安装它:
pip install pymystem3
最新版本(推荐):https://github.com/nlpub/pymystem3:
pip install git+https://github.com/nlpub/pymystem3
一个简单的例子
元素化
>>> from pymystem3 import Mystem >>> text = "Красивая мама красиво мыла раму" >>> m = Mystem() >>> lemmas = m.lemmatize(text) >>> print(''.join(lemmas)) красивый мама красиво мыть рама
获取语法信息和引理。
>>> import json >>> from pymystem3 import Mystem >>> text = "Красивая мама красиво мыла раму" >>> m = Mystem() >>> lemmas = m.lemmatize(text) >>> print "lemmas:", ''.join(lemmas) >>> print "full info:", json.dumps(m.analyze(text), ensure_ascii=False, encoding='utf8') lemmas: красивый мама красиво мыть рама full info: [{"text": "Красивая", "analysis": [{"lex": "красивый", "gr": "A=им,ед,полн,жен"}]}, {"text": " "}, {"text": "мама", "analysis": [{"lex": "мама", "gr": "S,жен,од=им,ед"}]}, {"text": " "}, {"text": "красиво", "analysis": [{"lex": "красиво", "gr": "ADV="}]}, {"text": " "}, {"text": "мыла", "analysis": [{"lex": "мыть", "gr": "V,несов,пе=прош,ед,изъяв,жен"}]}, {"text": " "}, {"text": "раму", "analysis": [{"lex": "рама", "gr": "S,жен,неод=вин,ед"}]}, {"text": "\n"}]
问题
请使用github问题跟踪程序(https://github.com/nlpub/pymystem3/issues)报告任何错误或请求! 我们只有非常有限的资源来维护这个项目:如果你看到一个明显的解决问题的方法,请直接提出一个请求。我们非常愿意接受错误修复,非常感谢您的帮助。