非洲语言的神经机器翻译
ukuxhumana的Python项目详细描述
Ukuxhumana
“Ukushmana”在祖鲁语中是“交流”的意思。这个项目的目的是探索使用神经机器翻译低资源语言-特别是南非官方语言的想法。
数据
平行小体
我们的平行小体来自the Autshumato project。这些数据集包含由专业翻译人员翻译的数据、由翻译人员翻译成翻译文件对的数据以及从政府网站和文件中获得的数据
型号
整个项目使用了两种主要的架构,即Gehring等人的卷积序列到序列。以及Vaswani等人的Transformer。分别采用fairseq(-py)和tensor2传感器对这些技术进行建模。
结果
结果用bleu给出。
基线
英语->;语言
Model | Setswana | isiZulu | Northern Sotho | Xitsonga | Afrikaans |
---|---|---|---|---|---|
Convolutional Seq2Seq | 27.77 (24.18) | 0.62 (0.28) | 15.35 (7.41) | 36.96 | 16.17 |
Convolutional Seq2Seq (40K BPE) | 23.83 | 1.44 | 4.89 | 34.28 | 21.06 |
Convolutional Seq2Seq (8K BPE) | 2.19 | 15.45 | 26.78 | ||
Transformer (uncased) | 33.53 | 4.55 | 29.23 | 47.37 | 35.26 |
Transformer (cased) | 33.12 | 4.45 | 28.71 | 46.95 | 34.81 |
Transformer (40k BPE) (uncased) | 4.29 | ||||
Transformer (40k BPE) (cased) | 4.14 | ||||
Transformer (8k BPE) (uncased) | |||||
Transformer (8k BPE) (cased) |
语言->;英语
Model | Setswana | isiZulu | Northern Sotho | Xitsonga | Afrikaans |
---|---|---|---|---|---|
Convolutional Seq2Seq | |||||
Transformer (uncased) | |||||
Transformer (cased) |