自回归神经机器翻译模型的研究进展.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自回归神经机器翻译模型的研究进展 摘要:当前基于自注意力机制的神经机器翻译模型取得了长足的进展,但是采用自回归的神经机器翻译在解码过程中无法并行计算,耗费时间过长.为此,提出了一个采用非自回归的神经机器翻译模型,可以实现并行解码,并且只使用一个Transformer的编码器模块进行训练,简化了传统的编码器-解码器结构.同时在训练过程中引入了掩码机制,减小了与自回归的神经机器翻译的翻译效果差距.相比于其他非自回归翻译模型,该模型在WMT 2016罗马尼亚语-英语翻译任务上取得了更好的效果,并且在使用跨语言预训练语言模型初始化后,取得了和自回归神经机器翻译模型相当的结果. 机器翻译 NMT模型一般采用编码器-解码器 虽然在翻译效果上取得了较大进步,但相关模型也越来越复杂,并且编码器与解码器分开设计,进一步增加了模型的复杂度.目前已经有一些工作尝试缩小编码器与解码器之间的差异,将它们简化为一个模块.Bapna等 非自回归NMT近几年在NMT领域逐渐受到关注.传统的自回归NMT在解码过程中逐次以已知单词为条件预测下一个单词,而非自回归NMT则通过并行计算一次性生成所有预测单词.虽然在配置相同的情况下非自回归NMT效果往往没有自回归NMT好,但是相对而言,其翻译速度有大幅提高.2018年,Gu等 为了简化传统的NMT模型框架,本研究提出了基于掩码机制的非自回归NMT模型.该模型只使用一个带有自注意力机制的编码器,并且运用了类似于Devlin等 1 模型结构 1.1 基础结构 受MLM 1.2 掩码机制 MLM实质上是一个带有双向自注意力机制和掩码机制的Transformer编码器,在此结构基础上,模型能够在每一层中学习到上下文的双向表示.因此,本研究采用类似于MLM的方法来优化输入文本的上下文表示.具体地,将输入文本中的词随机替换为特殊标记[mask],实现对输入文本的部分遮掩,然后模型通过学习文本的上下文信息来预测被遮掩的词. 在模型训练时,对目标语句进行随机遮掩之后,将双语平行句对用/T隔开,作为一个序列,进入Transformer编码器进行自注意力的计算.如图2所示:其中,对于源语句部分,在进行自注意力运算时,将目标语句的权重设置为-∞,即让模型在进行源语句注意力计算时,感知不到目标语句;而在进行目标语句的自注意力运算时,不对源语句的权重进行任何的操作,即让模型在目标语句注意力计算时,能够感知到整个句对. 1.3 非自回归NMT 非自回归NMT对目标语言的每个词独立地进行预测,不依赖于预测词前面位置的单词,因此能一次性地预测出整个目标语言句子.给定一个源语言句子S 其中: 本研究随机对目标端句子中的N个词进行遮掩,N服从于均匀分布U(1,l),其中l为目标端句子长度.模型的遮掩和生成部分的损失函数可表示为 1.4 长度预测模块 在传统的自回归NMT中,从左往右逐词解码,直到预测出代表句子结束的特殊标识符/s,作为句子解码结束的标志.而在非自回归NMT中,由于同时预测出整个句子的内容,所以在预测句子内容之前,需要提前知道句子长度.因此,本研究采用了一个单层的RNN来提前预测句子的长度. 假设目标语言句子的最大长度为l 其中,W为权重矩阵,U为偏置矩阵.然后对隐状态H 其中V为参数矩阵.对于y 因此,在模型训练阶段,将目标端句子的真实长度编码成一个l 1.5 损失函数 结合长度预测模块和目标端句子预测模型,本研究在模型训练过程中,最小化损失函数为 1.6 遮掩-预测解码机制 非自回归NMT虽然能够提高解码的速度,但是如何提高解码的效果至关重要.因此,在模型解码阶段,本研究采用“遮掩-预测”解码机制 解码的算法思路如下:首先根据源语言的句子,通过长度预测模块得到目标语言句子的长度l;然后将目标语言句子置为l个特殊标记[mask],与源语言句子拼接在一起进入模型,预测出目标语言句子中的所有词;最后进入T轮的迭代优化,每一轮的优化迭代包含遮掩和预测两部分. 遮掩:在第t轮,对于上一轮预测得到的目标端句子,遮掩掉句子中各个单词预测概率p 其中[]表示取整. 预测:将源语言句子S 其中,V 2 实验 2.1 数据集 选择非自回归NMT任务中常用的WMT 2016英语-罗马尼亚语(http:∥/wmt16/translation-task.html)语料进行实验,训练集含有61.3万对平行句对,验证集newsdev2016和测试集newstest2016各含有2 000对平行句对.使用工具MOSES 2.2 实验设置 在实验中,对于长度预测模块,使用一个单层RNN对源端信息进行编码,目标端句子最大长度设为256,并用一个Softmax层对目标端句子长度进行预测.对于目标端句

文档评论(0)

lmzwkyc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档