Python preprocess-corpora包_程序模块 - PyPI

平行语料库的预处理与句子对齐

preprocess-corpora的Python项目详细描述

语料库预处理

这个存储库包含Python脚本来预处理和句子对齐并行（或单语）语料库。存储库严重依赖Uplug和（在较小的方面）TreeTagger来工作。在

安装

首先，确保安装了Uplug和{a2}。在

然后，通过以下方式安装需求：

$ pip install -r requirements.txt

最后，通过以下方式创建可执行文件preprocess和{}：

^{pr2}$

使用

预处理

preprocess脚本允许对原始文本进行预处理，然后对XML format used in OPUS中的文本进行标记和标记。在

运行preprocess以处理文件夹中所有未格式化的.txt文件。在

用法：

process [OPTIONS] FOLDER_IN FOLDER_OUT [de|en|es|fr|it|nl|ru|ca|sv|pt]

选项：

--from_word使用.docx文件而不是.txt文件作为输入。在
--tokenize将文件标记化（需要安装Uplug（以及Uplug中的语言支持））。在
--tag标记文件（需要安装TreeTagger（以及TreeTagger中的语言支持））

对齐

运行align在工作目录中对.xml文件进行语句对齐。需要安装Uplug。在

用法：

align [OPTIONS] WORKING_DIR [[de|en|es|fr|it|nl|ru|ca|sv|pt]]...

支持的语言

完全支持

德语（de）
英语（英语）
西班牙语（es）（+变体Rioplatense（ar）和墨西哥语（mx）西班牙语）
法语（法语）
意大利语（it）
荷兰语（nl）
俄语（ru）
葡萄牙语（pt）

有限支持

Breton（br）[在Uplug/TreeTagger中不支持]
加泰罗尼亚语（ca）[在Uplug/TreeTagger中不支持]
瑞典语（sv）[在Uplug/TreeTagger中不支持]

测试

通过运行测试

python -m unittest discover

在preprocess_corpora/tests/data/alice中，可以找到测试中使用的示例语料库。这个语料库是根据刘易斯·卡罗尔的《爱丽丝梦游仙境记》及其德语、法语和意大利语的翻译而成的。源文件可通过Project Gutenberg获得。在

欢迎加入QQ群-->： 979659372

preprocess-corpora 0.1.1

preprocess-corpora的Python项目详细描述

语料库预处理

安装

使用

预处理

对齐

支持的语言

完全支持

有限支持

测试

推荐PyPI第三方库

PyNimbus

save-p

tagup

pydebuggerupgrade

pytmg

salesvision

levish

bs-highlighter

pyabpoa

yaqd-microchip

genepy3d

more-properties

adafruit-circuitpython-icm20x

qcSubroutines

qx

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

preprocess-corpora 0.1.1

preprocess-corpora的Python项目详细描述

语料库预处理

安装

使用

预处理

对齐

支持的语言

完全支持

有限支持

测试

推荐PyPI第三方库

PyNimbus

save-p

tagup

pydebuggerupgrade

pytmg

salesvision

levish

bs-highlighter

pyabpoa

yaqd-microchip

genepy3d

more-properties

adafruit-circuitpython-icm20x

qcSubroutines

qx

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签