处理语言数据的工具。

corp的Python项目详细描述


Documentation statusPyPI packageCode style

安装

$ pip3 install corpy

设计仅支持最新版本的Python3(3.6+)。

科皮是什么?

corpus;)来说也是一个花哨的复数,也是一个方便但不是特别的集合 处理语言数据的相互集成的工具。它抽象化了 教学和/或日常实践中经常需要的功能 在Czech National Corpus工作,没有抱负 成为一个功能齐全或一致的NLP框架

文档的简短url是:https://corpy.rtfd.io/

这里有一个你可以用corpy做什么的想法:

注意

我应该选择udpipe还是morphodita?

UDPipeMorphoDiTa的继承者,在 原始代码库。它有更多的功能,但代价是 复杂:它同时做morphological tagging (including lemmatization) and syntactic parsing, 它处理许多不同的输入和输出格式。你也可以 下载pre-trained models用于 许多不同的语言。

相比之下,MorphoDiTa只有pre-trained models for Czech and English,并且只执行 morphological tagging (including lemmatization)。但是 输出更简单——它只是将文本拆分成标记,然后 注释它们,而udpipe可以(取决于模型)引入 为进行更明确的分析而需要的附加标记,添加多个单词 标记等。这是因为udpipe是根据语言类型定制的。 在UniversalDependencies项目中进行的分析,使用 CoNLL-U数据格式。

如果你只想标记文本而没有 可用的语言模型。

开发

依赖关系和构建文档

规范依赖性需求列在pyproject.toml和 冻结在poetry.lock中。但是,为了使用autodoc来构建api docs,必须安装包,corpy具有以下依赖项 资源过于密集,无法建立在readthedocs上。

解决方案是使用一个伪setup.py,它只列出依赖项 需要正确地构建文档,并通过列出 它们在autodoc_mock_imports中,docs/conf.py中。这个伪setup.py是 用于仅在readthedocs上安装corpy(通过适当的配置 .readthedocs.yml中的选项。对于MANIFEST.in文件也是如此, 它复制pyproject.toml中的tool.poetry.include项 readthedocs的唯一好处。

许可证

版权所有©2016–至今ÚČNK/david luke_

分布在GNU General Public License v3下面。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
netbeans根据命名约定返回布尔类的getter的Java名称   java如何在MessageFormat中使用单引号   java如何在整数数组中只对奇数排序,而将偶数保留在其原始位置?   自定义ArrayAdapter中未定义java构造函数   java joda时间格式化程序解析yyyyymmdd(额外一小时)   java Spring引导控制器测试始终返回404   java如何提取类文件以获取该类文件中的类?   JTable java列不会显示   java Selenium Web驱动程序输出错误的Web表行数   当应用程序在mac上打开时,java SWT选项卡项会从页面上消失   java如何将html文件映射到过滤器   swing Java计算一段时间内两点之间的转换   javawebsphere和javax。xml。ws。spi。提供者:提供者组织。阿帕奇。axis2。jaxws。spi。提供者不是子类型   For循环在Java中没有按预期继续?   java如何配置gson以排除0个整数值   java读取一个由tab分隔的文件,并将单词放入ArrayList中   java我需要做什么才能让LiveConnect重新工作?   sqlservermerge2xml&使用java提取这些数据并将其存储在db表中   java如何在模型中添加新对象时通知网格