基于分层语块分析统计翻译研究.docVIP

下载本文档

3
0
约4.99千字
约 11页
2018-08-29 发布于福建
举报
版权申诉

基于分层语块分析统计翻译研究.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于分层语块分析统计翻译研究

基于分层语块分析统计翻译研究　　摘要：本文描述了一个基于分层语块分析的统计翻译模型。该模型在形式上不仅符合同步上下文无关文法，而且融合了基于条件随机场的英文语块分析知识，因此基于分层语块分析的统计翻译模型做到了将句法翻译模型和短语翻译模型有效地结合。该系统的解码算法改进了线图分析的CKY算法，融入了线性的N-gram语言模型。目前，本文主要针对中文－英文的口语翻译进行了一系列实验，并以国际口语评测IWSLT(International Workshopon Spoken Languagc Translation)为标准，在2005年的评测测试集上，BLEU和NIST得分均比统计短语翻译系统有所提高。　　关键词：人工智能；机器翻译；基于分层语块分析的统计翻译模型；条件随机场；CKY算法　　中图分类号：TP391　文献标识码：A 　　　　1 引　言　　　　统计翻译是通过寻找最大似然路径，将源语言fj1＝f1，f2，…fJ翻译成目标语言，如英语eI1＝e1，e2，…，eI：　　　　在公式(2)中，信源信道模型被独立地分解为翻译模型和语言模型。前者代表了两种语言之间的对应关系，后者代表了英文的流利度。　　基于短语的翻译模型是当前统计翻译的主流，它把短语，即连续的词串作为翻译模型的最小单位：它假设输入eI1被分解为K个连续短语e-K1，每个短语ek被翻译成fk真，翻译结果再进行重组形成fj1相比于基于词的翻译模型，短语翻译模型的优势在于它可以利用短语内部的语序信息进行局部的调序。但是，对于大范围的短语之间的顺序问题，它无能为力。虽然近年来，众多研究者试图加入多种调序模型来弥补短语模型的不足，但效果都不是很理想。这是因为短语重排序的模型一般是根据词的位置进行跳转，无法用到更多的句子结构信息。　　Chiang引入了分层短语模型的概念，它有效结合了短语模型和同步CFG文法：由根节点开始每次同时生成一对子串，该子串最多包含两个非终结符。该模型可以看作是在短语翻译对中加入了相应变量，可以完成长距离短语对的翻译。因此分层模型克服了传统短语翻译模型的调序问题，但是分层短语模型的规则提取仍然沿用了在双语对齐语料中抽取相容短语的方法，并通过在大短语中找到包含的子短语来实现。由于没有任何句法信息约束，分层短语模型抽取的语法规模往往十分庞大，极大地影响之后翻译解码的质量和效率。　　本文提出了基于分层语块分析的概念，它沿用了Chiang的分层短语模型的形式化机制，并且结合了英文浅层句法分析的手段，使其在一定程度上去除了存在的冗余信息，真正做到了句法信息和统计翻译相结合。另外，本文改进了线图的CKY解码算法，提高了搜索质量和效率。本文其余部分是如下安排的：第二节给出了基于CRF语块分析的分层短语模型；第三节介绍了改进的CKY-Style解码算法；第四节为针对中文一英文口语翻译评测的实验结果；最后一节结论。　　　　2 基于CRF语块分析的分层短语模型　　　　在传统的短语模型中，短语是指和统计词语对齐相容，并在相邻的词语之间进行抽取的词串，通常称之为统计短语。Chiang的分层短语模型，虽然加入了同步上下文无关文法的约束，但在短语的抽取上仍然沿用了统计短语的获取方法，没有任何的句法结构意义，缺乏语法信息的约束。单纯的统计方法获取的短语在规模上大约是S2(S是句子的长度)，这其中存在大量的冗余信息，在此基础上抽取的分层短语存在变量过渡替换，规模骤增的问题，对之后翻译解码的质量和效率带来不便。因此，本文引入了基于CRF的语块分析方法，并在此基础上建立分层短语模型。　　　　2．1 基于条件随机场(Conditional Random Fields，CRF)的语块分析　　语块分析，也称作浅层句法分析或部分句法分析(Partial Parsing)。它主要是识别句子中某些结构相对简单的独立成分。语块分析使句法分析的任务在某种程度上得到简化，同时也利于句法分析技术在大规模真实文本处理系统中迅速得到应用。Lafferty et al提出了CRF的概念，随后便被广泛地应用在模式识别各个领域，CRF还被用作名词实体的识别，生物基因序列信息的识别等许多自然语言处理领域。CRF模型描述如下。　　给定的输出标识序列Y和观测序列X，为了描述(X，y)序列对上的CRF，定义特征函数fj(yi-1，yi，x，i)和权值向量λ，yi-1，yi为标识序列，X为输入序列，i为输入位置。则　　　　沿用Sha和Pereira提出base NP识别特征函数建立的方法，并将其扩展到Base Phrase(NP，VP，PP)的识别。yi连续的标识序列为yi-1＝ci-2ci-1，y＝i-1ci，特征函数fj(yi-1，yi