自回归神经机器翻译模型的研究进展.docx

下载文档 降价啦

51
0
约4.19千字
约 6页
2021-08-13 发布于广东
举报
版权申诉
保障服务

自回归神经机器翻译模型的研究进展.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

自回归神经机器翻译模型的研究进展摘要：当前基于自注意力机制的神经机器翻译模型取得了长足的进展，但是采用自回归的神经机器翻译在解码过程中无法并行计算，耗费时间过长.为此，提出了一个采用非自回归的神经机器翻译模型，可以实现并行解码，并且只使用一个Transformer的编码器模块进行训练，简化了传统的编码器-解码器结构.同时在训练过程中引入了掩码机制，减小了与自回归的神经机器翻译的翻译效果差距.相比于其他非自回归翻译模型，该模型在WMT 2016罗马尼亚语-英语翻译任务上取得了更好的效果，并且在使用跨语言预训练语言模型初始化后，取得了和自回归神经机器翻译模型相当的结果. 机器翻译NMT模型一般采用编码器-解码器虽然在翻译效果上取得了较大进步，但相关模型也越来越复杂，并且编码器与解码器分开设计，进一步增加了模型的复杂度．目前已经有一些工作尝试缩小编码器与解码器之间的差异，将它们简化为一个模块．Bapna等非自回归NMT近几年在NMT领域逐渐受到关注．传统的自回归NMT在解码过程中逐次以已知单词为条件预测下一个单词，而非自回归NMT则通过并行计算一次性生成所有预测单词．虽然在配置相同的情况下非自回归NMT效果往往没有自回归NMT好，但是相对而言，其翻译速度有大幅提高．2018年，Gu等为了简化传统的NMT模型框架，本研究提出了基于掩码机制的非自回归NMT模型．该模型只使用一个带有自注意力机制的编码器，并且运用了类似于Devlin等1 模型结构1.1 基础结构受MLM1.2 掩码机制MLM实质上是一个带有双向自注意力机制和掩码机制的Transformer编码器，在此结构基础上，模型能够在每一层中学习到上下文的双向表示．因此，本研究采用类似于MLM的方法来优化输入文本的上下文表示．具体地，将输入文本中的词随机替换为特殊标记[mask]，实现对输入文本的部分遮掩，然后模型通过学习文本的上下文信息来预测被遮掩的词．在模型训练时，对目标语句进行随机遮掩之后，将双语平行句对用/T隔开，作为一个序列，进入Transformer编码器进行自注意力的计算．如图2所示：其中，对于源语句部分，在进行自注意力运算时，将目标语句的权重设置为-∞，即让模型在进行源语句注意力计算时，感知不到目标语句；而在进行目标语句的自注意力运算时，不对源语句的权重进行任何的操作，即让模型在目标语句注意力计算时，能够感知到整个句对．1.3 非自回归NMT非自回归NMT对目标语言的每个词独立地进行预测，不依赖于预测词前面位置的单词，因此能一次性地预测出整个目标语言句子．给定一个源语言句子S其中：本研究随机对目标端句子中的N个词进行遮掩，N服从于均匀分布U(1,l），其中l为目标端句子长度．模型的遮掩和生成部分的损失函数可表示为1.4 长度预测模块在传统的自回归NMT中，从左往右逐词解码，直到预测出代表句子结束的特殊标识符/s，作为句子解码结束的标志．而在非自回归NMT中，由于同时预测出整个句子的内容，所以在预测句子内容之前，需要提前知道句子长度．因此，本研究采用了一个单层的RNN来提前预测句子的长度．假设目标语言句子的最大长度为l其中，W为权重矩阵，U为偏置矩阵．然后对隐状态H其中V为参数矩阵．对于y因此，在模型训练阶段，将目标端句子的真实长度编码成一个l1.5 损失函数结合长度预测模块和目标端句子预测模型，本研究在模型训练过程中，最小化损失函数为1.6 遮掩-预测解码机制非自回归NMT虽然能够提高解码的速度，但是如何提高解码的效果至关重要．因此，在模型解码阶段，本研究采用“遮掩-预测”解码机制解码的算法思路如下：首先根据源语言的句子，通过长度预测模块得到目标语言句子的长度l；然后将目标语言句子置为l个特殊标记[mask]，与源语言句子拼接在一起进入模型，预测出目标语言句子中的所有词；最后进入T轮的迭代优化，每一轮的优化迭代包含遮掩和预测两部分．遮掩：在第t轮，对于上一轮预测得到的目标端句子，遮掩掉句子中各个单词预测概率p其中[]表示取整．预测：将源语言句子S其中，V2 实验2.1 数据集选择非自回归NMT任务中常用的WMT 2016英语-罗马尼亚语（http：∥/wmt16/translation-task.html）语料进行实验，训练集含有61.3万对平行句对，验证集newsdev2016和测试集newstest2016各含有2 000对平行句对．使用工具MOSES2.2 实验设置在实验中，对于长度预测模块，使用一个单层RNN对源端信息进行编码，目标端句子最大长度设为256，并用一个Softmax层对目标端句子长度进行预测．对于目标端句