泛化语言模型在汉维机器翻译中的应用-计算机应用研究.pdf

下载文档

3
0
约1.57万字
约 4页
2018-06-07 发布于天津
举报
版权申诉
保障服务

泛化语言模型在汉维机器翻译中的应用-计算机应用研究.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

泛化语言模型在汉维机器翻译中的应用-计算机应用研究

第卷第期计算机应用研究年月泛化语言模型在汉维机器翻译中的应用李响南江杨雅婷周喜米成刚中国科学院新疆理化技术研究所乌鲁木齐中国科学院大学北京公安局网安支队乌鲁木齐摘要针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象提出了一种基于泛化的维吾尔语语言模型该模型借助维吾尔语语言模型的训练过程中生成的文本结合字符串相似度算法取相似的维文字符串经过归一化处理抽取规则计算规则的参数值利用规则给测试集在解码过程中生成译文重新评分将评分最高的译文作为最佳译文实验结果表明泛化语言模型减少了存储空间同时规则的合理使用有效地提高了翻译译文的质量关键词汉维机器翻译泛化语言模型字符串相似度算法归一化处理规则译文评分中图分类号文献标志码文章编号基于统计的机器翻译是目前非限定领域机器翻译中性能数据稀疏问题可能会妨碍机器翻译系统找到最佳的翻译最较佳的一种方法与基于规则的机器翻译不同该方法使用语终影响了译文的整体质量料库作为翻译知识的来源其中基于短语的模型与基于相关研究层次短语的模型在统计机器翻译中较成熟它主要由两部分构成即翻译模型和语言模型语言模型为词序列当前语言模型的研究主要集中在语言模型的改进形态提供先验概率对翻译译文的选择起到决策作用语言模学分析和解决大规模语言模型等人提出了后向型中的传统方法是元文法语言建模假定当前词与互信息触发器结合的方法解决了模型丰富的的条件概率与该词前面的个词相关与其他词无关上下文关系和长距离依赖问题刘志文等人介绍了基于目前维吾尔语等小语种可用资源仍在不断完善语言处理相对的长距离蒙古语语言模型的三种实现方法体现了语言关研究处于探索阶段维吾尔语属于黏着语词与词之间模型的优化对机器翻译的重要性等人采用了因词与词缀之间依赖关系很高语言形态变化非常丰富子化的语言模型充分利用语言形态变化的特征在单词层面然而模型没有较好地考虑到丰富的语言特性和语法上整合了附加的语言学标记但需要使用较高阶的模