平行语料库的预处理与句子对齐
preprocess-corpora的Python项目详细描述
语料库预处理
这个存储库包含Python脚本来预处理和句子对齐并行(或单语)语料库。 存储库严重依赖Uplug和(在较小的方面)TreeTagger来工作。在
安装
首先,确保安装了Uplug和{a2}。在
然后,通过以下方式安装需求:
$ pip install -r requirements.txt
最后,通过以下方式创建可执行文件preprocess
和{
使用
预处理
preprocess
脚本允许对原始文本进行预处理,然后对XML format used in OPUS中的文本进行标记和标记。在
运行preprocess
以处理文件夹中所有未格式化的.txt文件。在
用法:
process [OPTIONS] FOLDER_IN FOLDER_OUT [de|en|es|fr|it|nl|ru|ca|sv|pt]
选项:
--from_word
使用.docx文件而不是.txt文件作为输入。在--tokenize
将文件标记化(需要安装Uplug(以及Uplug中的语言支持))。在--tag
标记文件(需要安装TreeTagger(以及TreeTagger中的语言支持))
对齐
运行align
在工作目录中对.xml文件进行语句对齐。需要安装Uplug。在
用法:
align [OPTIONS] WORKING_DIR [[de|en|es|fr|it|nl|ru|ca|sv|pt]]...
支持的语言
完全支持
- 德语(de)
- 英语(英语)
- 西班牙语(es)(+变体Rioplatense(ar)和墨西哥语(mx)西班牙语)
- 法语(法语)
- 意大利语(it)
- 荷兰语(nl)
- 俄语(ru)
- 葡萄牙语(pt)
有限支持
- Breton(br)[在Uplug/TreeTagger中不支持]
- 加泰罗尼亚语(ca)[在Uplug/TreeTagger中不支持]
- 瑞典语(sv)[在Uplug/TreeTagger中不支持]
测试
通过运行测试
python -m unittest discover
在preprocess_corpora/tests/data/alice
中,可以找到测试中使用的示例语料库。
这个语料库是根据刘易斯·卡罗尔的《爱丽丝梦游仙境记》及其德语、法语和意大利语的翻译而成的。
源文件可通过Project Gutenberg获得。在
- 项目
标签: