3564语言对的字转换器
word2word的Python项目详细描述
word2单词
为3564种语言对提供易于使用的逐字翻译。
主要功能
- 大量免费提供的词到词翻译 用于跨62种唯一语言的3564个语言对。
- 易于使用的python接口。
- 使用一种有效的方法构造,该方法通过 熟练的双语人类贴标员。
用法
首先,使用pip
:
pip install word2word
或
git clone https://github.com/Kyubyong/word2word.git
python setup.py install
然后,在python中,下载模型并检索前5个单词的翻译 所需语言的任何给定单词:
fromword2wordimportWord2worden2fr=Word2word("en","fr")print(en2fr("apple"))# out: ['pomme', 'pommes', 'pommier', 'tartes', 'fleurs']
支持的语言
我们在所有可用对中提供top-k逐字翻译 来自OpenSubtitles2018。 在62种独特的语言中,总共有3564个语言对。
提供完整的列表here。
方法论
我们的方法基于 平行语料库中跨语言词对的共现统计。 此外,我们还引入了一个校正项,用于控制任何混杂效应 来自同一句子中的其他源词。 结果方法是一种高效且可伸缩的方法,它允许我们 从任意给定的平行语料库中构造大型双语词典。
有关详细信息,请参阅our paper draft的方法部分。
与现有软件
的比较一个流行的公开的词到词翻译数据集是
^{word2word
不依赖翻译软件
并且包含更大的语言对集(3564)。
word2word
还提供最多10万字的top-k字对字翻译
(与muse中的5~10k个单词相比)可以应用于任何语言对
有一个平行的语料库。
在质量方面,虽然很难直接比较这两种方法, 我们确实注意到,缪斯的双语词典涉及非欧洲语言可能没有那么有用。 对于英语越南语,我们发现1500个单词对中有80%是 验证集的单词是一对的两倍 (例如深红色、铃木、兰德尔·兰德尔)。
有关详细信息,请参见our paper draft中的附录。
参考文献
如果您使用我们的软件进行研究,请引用:
@misc{word2word2019,author={Park, Kyubyong and Kim, Dongwoo and Choe, Yo Joong},title={word2word},year={2019},publisher={GitHub},journal={GitHub repository},howpublished={\url{https://github.com/Kyubyong/word2word}}}
(稍后我们可能会使用our paper report引用更新此bibtex。)
我们所有的逐字翻译都是从公开的 OpenSubtitles2018数据集:
@article{opensubtitles2016,title={Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles},author={Lison, Pierre and Tiedemann, J{\"o}rg},year={2016},publisher={European Language Resources Association}}
作者
Kyubyong Park, Dongwoo Kim,和 YJ Choe