Python corp包_程序模块 - PyPI

处理语言数据的工具。

corp的Python项目详细描述

安装

$ pip3 install corpy

设计仅支持最新版本的Python3（3.6+）。

科皮是什么？

对corpus；）来说也是一个花哨的复数，也是一个方便但不是特别的集合处理语言数据的相互集成的工具。它抽象化了教学和/或日常实践中经常需要的功能在Czech National Corpus工作，没有抱负成为一个功能齐全或一致的NLP框架

文档的简短url是：https://corpy.rtfd.io/

这里有一个你可以用corpy做什么的想法：

使用UDPipe或MorphoDiTa向原始文本数据添加语言注释

注意

我应该选择udpipe还是morphodita？

UDPipe是MorphoDiTa的继承者，在原始代码库。它有更多的功能，但代价是复杂：它同时做morphological tagging (including lemmatization) and syntactic parsing，它处理许多不同的输入和输出格式。你也可以下载pre-trained models用于许多不同的语言。

相比之下，MorphoDiTa只有pre-trained models for Czech and English，并且只执行 morphological tagging (including lemmatization)。但是输出更简单——它只是将文本拆分成标记，然后注释它们，而udpipe可以（取决于模型）引入为进行更明确的分析而需要的附加标记，添加多个单词标记等。这是因为udpipe是根据语言类型定制的。在UniversalDependencies项目中进行的分析，使用 CoNLL-U数据格式。

如果你只想标记文本而没有可用的语言模型。

easily generate word clouds
generate phonetic transcripts of Czech texts
wrangle corpora in the vertical format最初设计用于CWB，也由(No)SketchEngine使用
加上一些command line utilities

开发

依赖关系和构建文档
规范依赖性需求列在`pyproject.toml`和冻结在`poetry.lock`中。但是，为了使用`autodoc`来构建api docs，必须安装包，`corpy`具有以下依赖项资源过于密集，无法建立在readthedocs上。
解决方案是使用一个伪`setup.py`，它只列出依赖项需要正确地构建文档，并通过列出它们在`autodoc_mock_imports`中，`docs/conf.py`中。这个伪`setup.py`是用于仅在readthedocs上安装`corpy`（通过适当的配置 `.readthedocs.yml`中的选项。对于`MANIFEST.in`文件也是如此，它复制`pyproject.toml`中的`tool.poetry.include`项 readthedocs的唯一好处。

许可证

分布在GNU General Public License v3下面。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
dlukes
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
plt.savefig不会覆盖现有文件
plt.savefig不保存图像
plt.savefig在jupyter笔记本中不起作用
plt.savefig在从另一个fi调用时停止工作
plt.savefig在调用plt.show之前保存空数字
plt.save不创建png文件
plt.scatter overlay分类数据帧列
Plt.Scatter:如何添加title、xlabel和ylab
plt.scatter（）绘图与Matplotlib中的plt.plot（）绘图类似
plt.scatter错误'NoneType'对象在成功运行后没有属性'sqrt'
plt.set_title（）中的标题字符串有误
plt.show（）
plt.show（）不在Jupyter笔记本上渲染任何内容
plt.show（）不打印plt.plot only plt.scatter
plt.show（）不显示三维散射图像

corpy 0.2.3

corp的Python项目详细描述

安装

科皮是什么？

开发

许可证

推荐PyPI第三方库

odoo10-addon-base-fontawesome

pyconcrete

karas

data-xra

cloudlab

django-merchant

django-sitecats

python-webnoti

t3

pyramid_nitro

pyramid-restful-framework

xy-facemix

getdents

xy-imgflowers

tokencrypt

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

corpy 0.2.3

corp的Python项目详细描述

安装

科皮是什么？

开发

许可证

推荐PyPI第三方库

odoo10-addon-base-fontawesome

pyconcrete

karas

data-xra

cloudlab

django-merchant

django-sitecats

python-webnoti

t3

pyramid_nitro

pyramid-restful-framework

xy-facemix

getdents

xy-imgflowers

tokencrypt

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签