b001

重庆翻译机器质量差,看阿里如何搭建翻译质量

发布时间:2018-08-02  作者:cqylfy.com

重庆翻译质量评价使命一般可分为两种,即语句级的评价和单词级的评价,阿里机器翻译团队这次参加的竞赛相同也分为这两种使命。其间语句级的质量评价需求运用回归模型给译文语句的全体水平打分,而单词级的使命需求分类模型标示每一个词究竟翻译得好欠好。完结这两种评价使命的方法也有许多,但总体上都是经过抽取原文与译文的特征,并核算它们之间的匹配程度。曾经常见的研讨是运用手动抽取的质量评价特征,并馈送到回归或分类模型以得出译文的分数或类别。这些质量评价一般包含长度特征、言语特征和主题模型等特征,它们可能还会经过主成分剖析和高斯进程等方法进行挑选。

 

而自深度学习变得盛行以来,许多研讨者尝试运用深度神经网络主动抽取质量评价特征并完结评分。Kreutzer 等人首先在 2015 年提出根据窗口的 FNN 架构,它以窗口的方法抽取语义特征。在根据窗口的方法中,给定方针词,咱们从原语和方针语的对应方位中获取双语窗口,其间方针语窗口的中心词就是该方针词,而原语窗口的中心词即方针词对应的原语词。所有双语窗口下的词将会以 one-hot 编码的方法馈送到输入层,并进一步核算出当时窗口的双语匹配程度。

 

Patel 等人随后在 2016 年提出根据循环神经网络架构的质量评价模型,在该模型中,他们将单词级的质量评价模型视为序列标示使命,且相同选用了根据双语上下文窗口的方法。其间上下文窗口的所有词需求作为输入,并凭仗循环神经网络建模它们之间的依靠性关系,并最终输出标示序列以判别每个单词是不是翻译正确。

 

随后许多研讨者开始运用卷积神经网络、双向 LSTM 网络和注意力机制等深度学习方法,Martins 等人在 2017 年结合神经网络模型与富特征线性模型在质量评价模型上获得了非常好的效果。但阿里选用的模型并不根据上下文窗口,他们参阅了最近提出的自注意力机制和 Transfomer 机器翻译的模型结构,在前人研讨的基础上提出了一种名为『Bilingual Expert』model (『双语专家』模型) 作为特征抽取器,联合根据神经网络的译文质量评价结构。后边咱们将从这两方面要点重视这一结构,并探讨阿里达摩院对它们的优化。

 

 

《鱼我所欲也》

1.生,亦我所欲也,义,亦我所欲也,二者不可得兼,舍生而取义者也。

译:生命是我所想要的,大义也是我所想要的,假如两者不能够一起 都具有的话,那么我就只好牺牲生命而选取大义了。

 

2.由是则生而有不必也;由是则能够辟患而有不为也。

译:凭仗某种方法就能够得到生计,但有人不必;凭仗某种方法就能够 逃避祸殃,但有人不去干这种工作。

 

3.万钟则不辩礼义而受之,万钟于我何加焉!

译:万钟的优厚俸禄假如不区分是否符合礼义就承受它,万钟的优厚俸禄对我有什么优点呢?

 

4.乡为身死而不受,今为所识穷乏者得我而为之

译:原先为了礼义宁愿身死也不承受(一箪食,一豆羹) ,现在为了所 知道的贫民感谢我而承受它。

 

5.是亦不能够已乎?此之谓失其良心。 

译:这种做法不也是能够停止了吗?这就是所说的失掉了他正本的思维。

 

6.如使人之所欲莫甚于生,则凡能够得生者何不必也?使人之所恶莫 甚于死者,则凡能够辟患者何不为也? 

译:假使人们所喜爱的没有超越生命的,那么但凡能够用来求得生计的方法,什么手法不必呢?假使人们所厌恶的没有超越逝世的,那么但凡能够用来逃避祸殃的,什么工作不做呢?