3564语言对的字转换器

word2word的Python项目详细描述


imageimageimageimage

word2单词

为3564种语言对提供易于使用的逐字翻译。

主要功能

  • 大量免费提供的词到词翻译 用于跨62种唯一语言的3564个语言对。
  • 易于使用的python接口。
  • 使用一种有效的方法构造,该方法通过 熟练的双语人类贴标员。

用法

首先,使用pip

安装包
pip install word2word

git clone https://github.com/Kyubyong/word2word.git
python setup.py install

然后,在python中,下载模型并检索前5个单词的翻译 所需语言的任何给定单词:

fromword2wordimportWord2worden2fr=Word2word("en","fr")print(en2fr("apple"))# out: ['pomme', 'pommes', 'pommier', 'tartes', 'fleurs']

gif

支持的语言

我们在所有可用对中提供top-k逐字翻译 来自OpenSubtitles2018。 在62种独特的语言中,总共有3564个语言对。

提供完整的列表here

方法论

我们的方法基于 平行语料库中跨语言词对的共现统计。 此外,我们还引入了一个校正项,用于控制任何混杂效应 来自同一句子中的其他源词。 结果方法是一种高效且可伸缩的方法,它允许我们 从任意给定的平行语料库中构造大型双语词典。

有关详细信息,请参阅our paper draft的方法部分。

与现有软件

的比较

一个流行的公开的词到词翻译数据集是 ^{},其中 包括110本双语词典,这些词典是从Facebook的内部翻译工具构建的。 与muse相比,word2word不依赖翻译软件 并且包含更大的语言对集(3564)。 word2word还提供最多10万字的top-k字对字翻译 (与muse中的5~10k个单词相比)可以应用于任何语言对 有一个平行的语料库。

在质量方面,虽然很难直接比较这两种方法, 我们确实注意到,缪斯的双语词典涉及非欧洲语言可能没有那么有用。 对于英语越南语,我们发现1500个单词对中有80%是 验证集的单词是一对的两倍 (例如深红色、铃木、兰德尔·兰德尔)。

有关详细信息,请参见our paper draft中的附录。

参考文献

如果您使用我们的软件进行研究,请引用:

@misc{word2word2019,author={Park, Kyubyong and Kim, Dongwoo and Choe, Yo Joong},title={word2word},year={2019},publisher={GitHub},journal={GitHub repository},howpublished={\url{https://github.com/Kyubyong/word2word}}}

(稍后我们可能会使用our paper report引用更新此bibtex。)

我们所有的逐字翻译都是从公开的 OpenSubtitles2018数据集:

@article{opensubtitles2016,title={Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles},author={Lison, Pierre and Tiedemann, J{\"o}rg},year={2016},publisher={European Language Resources Association}}

作者

Kyubyong ParkDongwoo Kim,和 YJ Choe

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java SimpleCursorAdapter删除值   java结束while循环条件   java检查设备是否连接到特定网络   java组织。冬眠MappingException找不到逻辑名称为annotation getter的列   为什么java邮件中会抛出此异常?   加载SDK时发生java Eclipse错误   返回奇怪输出的Java数组   JavaXStream和对象类序列化   将枚举列表传递给namedQuery后出现java非法转换异常。Hibernate中的setParameter()   java Android studio不允许我在字符串上使用开关?   有没有办法从Java程序访问存储在Chrome中的cookie   java在枚举中构造实例而不修改枚举类   java Blackberry JDE FieldChangeListener   java修复错误:未报告的异常InterruptedException   java Spring数据JPA:findAll(具有规范和可分页)在计数查询中失败