冰岛语的自然语言分析器

reynir的Python项目详细描述


https://github.com/mideind/ReynirPackage/blob/master/doc/_static/ReynirLogo216.png?raw=truehttps://travis-ci.com/mideind/ReynirPackage.svg?branch=master

概述

reynir是用于 将冰岛文本解析成句子树(即full 选区解析树)。这些树可以用来提取 来自文本的信息,例如关于人、头衔、实体的信息, 事实、行动和意见。

一路上,reynir标记文本,找到lemmas并分配 part of speech(pos)标记每个单词。

reynir的完整文档是available here

雷诺是自然语言Greynir.is的引擎 800万个冰岛语句子数据库的前端 新闻文章。

雷尼尔使用Tokenizer包, 由相同的作者来标记文本。

示例

>>> from reynir import Reynir
>>> r = Reynir()
>>> sent = r.parse_single("Ása sá sól.")
>>> print(sent.tree.view)
P                               # Root
+-S-MAIN                        # Main sentence
  +-IP                          # Inflected phrase
    +-NP-SUBJ                   # Noun phrase, subject
      +-no_et_nf_kvk: 'Ása'     # Noun, singular, nominative, feminine
    +-VP                        # Verb phrase containing arguments
      +-VP                      # Verb phrase containing verb
        +-so_1_þf_et_p3: 'sá'   # Verb, 1 accusative arg, singular, 3rd p
      +-NP-OBJ                # Noun phrase, object
        +-no_et_þf_kvk: 'sól' # Noun, singular, accusative, feminine
+-'.'                           # Punctuation
>>> sent.tree.nouns
['Ása', 'sól']
>>> sent.tree.verbs
['sjá']
>>> sent.tree.flat
'P S-MAIN IP NP-SUBJ no_et_nf_kvk /NP-SUBJ VP so_1_þf_et_p3
    NP-OBJ no_et_þf_kvk /NP-OBJ /VP /IP /S-MAIN p /P'
>>> # The subject noun phrase (S.IP.NP also works)
>>> sent.tree.S.IP.NP_SUBJ.lemmas
['Ása']
>>> # The verb phrase
>>> sent.tree.S.IP.VP.lemmas
['sjá', 'sól']
>>> # The object within the verb phrase (S.IP.VP.NP also works)
>>> sent.tree.S.IP.VP.NP_OBJ.lemmas
['sól']

先决条件

这个包运行在cpython 3.4或更新版本上,pypy3.5或更新版本上。

如果PyPi上没有二进制轮包 对于您的系统,您可能需要有python3-dev和/或潜在的 python3.6-dev安装在 系统成功设置Reynir。这是因为 安装需要一个C++编译器和链接器:

# Debian or Ubuntu:
sudo apt-get install python3-dev
sudo apt-get install python3.6-dev

安装

要安装此软件包:

$ pip3 install reynir   # or pip install reynir if Python3 is your default

如果您希望能够编辑源代码,请这样做(假设 您已经安装了git

$ git clone https://github.com/mideind/ReynirPackage
$ cd ReynirPackage
$ # [ Activate your virtualenv here if you have one ]
$ python setup.py develop

包源代码现在位于ReynirPackage/src/reynir中。

测试

要运行内置测试,请安装pytestcd到您的ReynirPackage子目录(并可选地激活 virtualenv),然后运行:

$ python -m pytest

文档

详情请咨询Reynir’s documentationinstallation instructions, 一个quickstart guide, 以及reference information, 以及重要信息 关于copyright and licensing

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java从arraylist元素调用方法   开关案例中的java错误。。。代码不返回任何内容   在TeamCity:Task:app:processDebugResources上使用Gradle进行构建时java失败   Android Studio的java Gradle同步(SDK)问题   小程序中的java Tic Tack Toe游戏:图像不工作   火柴ABC12;10;250.3使用regexjava   java如何在任务栏的系统托盘中隐藏JFrame   java ListProperty<T>与ObjectProperty<ObservableList<T>>   java如何将resultset数据转换为我的对象。以下是数据的格式   JavaJSF2和oracle   java Junit和EasyMock意外失败   使用java从生成的xml文档中删除xml声明   使用high ResultSet时某些表的java ArrayIndexOutOfBoundsException。fetchSize()   java检测点击按钮   while循环不会结束(Java)   java如何通过JUNIT将数据与文件进行比较?   hadoop Hive Java API寄存器JAR