平行语料库的预处理与句子对齐

preprocess-corpora的Python项目详细描述


语料库预处理

这个存储库包含Python脚本来预处理和句子对齐并行(或单语)语料库。 存储库严重依赖Uplug和(在较小的方面)TreeTagger来工作。在

安装

首先,确保安装了Uplug和{a2}。在

然后,通过以下方式安装需求:

$ pip install -r requirements.txt

最后,通过以下方式创建可执行文件preprocess和{}:

^{pr2}$

使用

预处理

preprocess脚本允许对原始文本进行预处理,然后对XML format used in OPUS中的文本进行标记和标记。在

运行preprocess以处理文件夹中所有未格式化的.txt文件。在

用法:

process [OPTIONS] FOLDER_IN FOLDER_OUT [de|en|es|fr|it|nl|ru|ca|sv|pt]

选项:

  • --from_word使用.docx文件而不是.txt文件作为输入。在
  • --tokenize将文件标记化(需要安装Uplug(以及Uplug中的语言支持))。在
  • --tag标记文件(需要安装TreeTagger(以及TreeTagger中的语言支持))

对齐

运行align在工作目录中对.xml文件进行语句对齐。需要安装Uplug。在

用法:

align [OPTIONS] WORKING_DIR [[de|en|es|fr|it|nl|ru|ca|sv|pt]]...

支持的语言

完全支持

  • 德语(de)
  • 英语(英语)
  • 西班牙语(es)(+变体Rioplatense(ar)和墨西哥语(mx)西班牙语)
  • 法语(法语)
  • 意大利语(it)
  • 荷兰语(nl)
  • 俄语(ru)
  • 葡萄牙语(pt)

有限支持

  • Breton(br)[在Uplug/TreeTagger中不支持]
  • 加泰罗尼亚语(ca)[在Uplug/TreeTagger中不支持]
  • 瑞典语(sv)[在Uplug/TreeTagger中不支持]

测试

通过运行测试

python -m unittest discover

preprocess_corpora/tests/data/alice中,可以找到测试中使用的示例语料库。 这个语料库是根据刘易斯·卡罗尔的《爱丽丝梦游仙境记》及其德语、法语和意大利语的翻译而成的。 源文件可通过Project Gutenberg获得。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用java向dropup html/css添加项目   如何从java中的向量向量打印   Java Maven库项目模板   java使用atmosphere api还是直接使用grizzly?   java JComponent仅部分显示   如何将动态值传递给自定义注释,以从Java数据进行映射。性质   java破解已实现方法的返回类型的最佳方法?   java Netbeans在JFrame Gui布局中覆盖图像   spring java仅向登录用户显示注销按钮   java如何对com进行身份验证。谷歌。云bigquery。带有服务帐户的BigQuery`   java禁止空字符串参数和抛出RuntimeException以阻止方法继续的利弊   java分析项目中的所有JAR以获取版本和许可证信息   Java,数据库为什么要分配一个新对象,而我们可以直接将它放入数据库