印度语的最新翻译。

anuvaad的Python项目详细描述


阿努瓦德

最先进的印度语开源翻译模型。在

安装

# CPU pytorch will be installed if torch is not installed
pip install --upgrade anuvaad

使用

作为Python模块

^{pr2}$

作为服务

# Starting the api service
docker run -it -e BATCH_SIZE=1 -p 8080:8080 notaitech/anuvaad:english-telugu

# Running a prediction
curl -d '{"data": ["YS Jagan is the chief minister of Andhra Pradesh."]}' -H "Content-Type: application/json" -X POST http://localhost:8080/sync
Available ModelsAnuvaad BLEUGoogle BLEU
english-telugu12.7211737437640096.841437460383768
english-tamil12.7370361492146945.558450942590664
english-malayalam17.78574664672199619.569069412553812
english-kannada7.8888860419338153.2803251953567893
english-marathi23.0275595539251812.888112016722792
english-hindi29.17589221321695418.130893478614375
english-bengali
english-punjabi
english-gujarati

我对模型评估/准确性的看法:

  1. 与分类/序列标记任务不同,对于开放域翻译或摘要系统,很难通过数字来量化准确性。在
  2. 这是因为,大多数精度测量实际上测量的是预期输出和预测输出之间字符/单词n-gram的重叠。在
  3. 当评估/比较一个特定数据集上的多个模型时,这些分数肯定有帮助,但是对于开放域模型来说,这个数字并不能很好地转换。在
  4. 例如,Anuvaad翻译句子一个预付款给这类医院的医疗主管,然后他们在个案基础上提供帮助。(摘自http://data.statmt.org/pmindia/v1/parallel语料库)到这类医院的医生和爱德华兹在一起,随后,将提供以下信息。其中,数据集中句子的预期翻译为***主管们看到什么都会得到帮助。在
  5. 在上面的例子中,虽然Anuvaad的翻译是正确的(从某种意义上说,翻译传达了与原句子相同的东西),n=3的BLEU分数将为0。在
  6. 类似地,在pmindia数据集上训练的模型在使用不同写作风格的不同数据集上也会有不好的分数,即使翻译在语义上是正确的。在
  7. 我们构建Anuvaad的目的是建立一个通用的,开放的领域翻译模块,可以灵活地翻译来自不同领域的文本。在
  8. https://docs.google.com/spreadsheets/d/1_TTtBEvVgemQfGbRBSZYkECMMt5r7L9-dt0FGVUbmOY/edit?usp=sharing是一张比较Anuvaad、ilmulti(https://github.com/jerinphilip/ilmulti)和Google Translate(=GOOGLETRANSLATE(Google sheets上的文本,“en”,“language”)函数)对塔图巴100个随机选择的英语句子的翻译进行比较。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
tomcat Java条带错误   java OPENTSDB fsck修复程序不更正重复点   java JavaFX在控制器内切换自身的可见性   java maven surefire插件未并行执行运行程序   读取导致Freemarker模板引擎中TemplateException的Java对象   无法使Java库与我的Android应用程序一起工作   安卓 java。lang.IllegalStateException游标   使用Java检索XML文件中的XSL URL和名称   java如何从文本文件集合中提取特定值   电子邮件java mail gmail   java为什么finalize()只被垃圾收集器调用一次?   java方法findViewById(int)对于Json类型是未定义的。蛇形   java在安卓中尝试从brother打印机打印位图时遇到以下异常   java在颤振中支持Kotlin的优势   java从后面编写文本   java制作列表。第一个列表可以有相同的数字,第二个将是价格,尝试制作第三个列表,如果它们是相同的数字,它将添加价格