机器翻译质量估计工具
openkiwi的Python项目详细描述
pytorch中的开源机器翻译质量评估
质量评估(qe)是机器翻译中缺失的一部分:它的目标是在没有参考译文的情况下评估翻译系统的质量。我们展示了openkiwi,这是一个基于pytorch的开源框架,它实现了wmt 2015-18共享任务中最好的qe系统,使得在同一框架下对这些模型进行实验变得很容易。使用openkiwi和这些模型的叠加组合,我们在wmt 2018英德数据集上实现了单词级qe的最新结果。
新闻
在7月初我们被提名之后,我们很高兴地宣布我们赢得了Best Demo Paper at ACL 2019!向全队表示祝贺,向球迷和记者表示衷心感谢。
我们将发布我们为acl现场演示演示所准备的web界面。
功能
- 培训qe模型和使用预先培训的模型评估mt的框架。
- 支持单词和句子级别的质量评估。
- pytorch中五个qe系统的实现:quetch[1]、nuqe[2、3]、predictor estimator[4、5]、ape-qe[3]和一个具有线性系统的叠合集[2、3]。
- 易于使用的api。将其作为包导入其他项目或从命令行运行。
- 提供脚本,以便对来自WMT 2018活动的数据运行预先培训的QE模型。
- 通过yaml配置文件易于跟踪和复制实验。
结果
测试集上WMT18 Quality Estimation shared task、word level和sentence level的结果。
Model | En-De SMT | En-De NMT | ||||||||
---|---|---|---|---|---|---|---|---|---|---|
MT | gaps | source | r | ⍴ | MT | gaps | source | r | ⍴ | |
OpenKiwi | 62.70 | 52.14 | 48.88 | 71.08 | 72.70 | 44.77 | 22.89 | 36.53 | 46.72 | 58.51 |
Wang2018 | 62.46 | 49.99 | -- | 73.97 | 75.43 | 43.61 | -- | -- | 50.12 | 60.49 |
UNQE | -- | -- | -- | 70.00 | 72.44 | -- | -- | -- | 51.29 | 60.52 |
deepQUEST | 42.98 | 28.24 | 33.97 | 48.72 | 50.97 | 30.31 | 11.93 | 28.59 | 38.08 | 48.00 |
快速安装
要将openkiwi作为一个包安装,只需运行
pip install openkiwi
您现在可以
importkiwi
在项目内部或在命令行中运行
kiwi
可选,如果您想利用我们的MLflow集成,只需将其安装在与openkiwi相同的virtualenv中即可:
pip install mlflow
开始
详细的用法示例和说明可以在Full Documentation中找到。
预先培训的模型
我们为预先训练的模型提供相应的预处理数据集和配置文件。 通过遵循reproduce instructions in the documentation,您可以轻松地在WMT 2018单词和句子级任务中重现我们的数字。
贡献
我们欢迎对改进openkiwi的贡献。 请参阅CONTRIBUTING.md以获取快速说明,或参阅contributing instructions以获取有关如何设置开发环境的详细说明。
许可证
OpenKiwi获得了Affero GPL许可。您可以在LICENSE中查看此许可证的详细信息。
引文
如果您使用openkiwi,请引用以下文章:OpenKiwi: An Open Source Framework for Quality Estimation。
@inproceedings{openkiwi,
author = {Fábio Kepler and
Jonay Trénous and
Marcos Treviso and
Miguel Vera and
André F. T. Martins},
title = {Open{K}iwi: An Open Source Framework for Quality Estimation},
year = {2019},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics--System Demonstrations},
pages = {117--122},
month = {July},
address = {Florence, Italy},
url = {https://www.aclweb.org/anthology/P19-3020},
organization = {Association for Computational Linguistics},
}