处理语言数据的工具。
corp的Python项目详细描述
安装
$ pip3 install corpy
设计仅支持最新版本的Python3(3.6+)。
科皮是什么?
对corpus;)来说也是一个花哨的复数,也是一个方便但不是特别的集合 处理语言数据的相互集成的工具。它抽象化了 教学和/或日常实践中经常需要的功能 在Czech National Corpus工作,没有抱负 成为一个功能齐全或一致的NLP框架
文档的简短url是:https://corpy.rtfd.io/
这里有一个你可以用corpy做什么的想法:
- 使用UDPipe或MorphoDiTa向原始文本数据添加语言注释
注意
我应该选择udpipe还是morphodita?
UDPipe是MorphoDiTa的继承者,在 原始代码库。它有更多的功能,但代价是 复杂:它同时做morphological tagging (including lemmatization) and syntactic parsing, 它处理许多不同的输入和输出格式。你也可以 下载pre-trained models用于 许多不同的语言。
相比之下,MorphoDiTa只有pre-trained models for Czech and English,并且只执行 morphological tagging (including lemmatization)。但是 输出更简单——它只是将文本拆分成标记,然后 注释它们,而udpipe可以(取决于模型)引入 为进行更明确的分析而需要的附加标记,添加多个单词 标记等。这是因为udpipe是根据语言类型定制的。 在UniversalDependencies项目中进行的分析,使用 CoNLL-U数据格式。
如果你只想标记文本而没有 可用的语言模型。