泛化语言模型在汉维机器翻译中的应用-计算机应用研究.pdf

泛化语言模型在汉维机器翻译中的应用-计算机应用研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
泛化语言模型在汉维机器翻译中的应用-计算机应用研究

第 卷第 期 计 算 机 应 用 研 究 年 月 泛化语言模型在汉维机器翻译中的应用 李 响 南江 杨雅婷 周喜 米成刚 中国科学院新疆理化技术研究所 乌鲁木齐 中国科学院大学 北京 公安局网安支 队 乌鲁木齐 摘 要 针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象提出了一种基 于泛化的维吾尔语语言模型 该模型借助维吾尔语语言模型的训练过程中生成的文本结合字符串相似度算 法取相似的维文字符串经过归一化处理抽取规则计算规则的参数值利用规则给测试集在解码过程中生成 译文重新评分将评分最高的译文作为最佳译文 实验结果表明泛化语言模型减少了存储空间同时规 则的合理使用有效地提高了翻译译文的质量 关键词 汉维机器翻译 泛化语言模型 字符串相似度算法 归一化处理 规则 译文评分 中图分类号 文献标志码 文章编号 基于统计的机器翻译是目前非限定领域机器翻译中性能 数据稀疏问题可能会妨碍机器翻译系统找到最佳的翻译最 较佳的一种方法与基于规则的机器翻译不同该方法使用语 终影响了译文的整体质量 料库作为翻译知识的来源其中基于短语的模型 与基于 相关研究 层次短语的模型 在统计机器翻译中较成熟 它主要由两部 分构成即翻译模型和语言模型语言模型为词序列 当前语言模型的研究主要集中在语言模型的改进形态 提供先验概率对翻译译文的选择起到决策作用 语言模 学分析和解决大规模语言模型 等人 提出了后向 型中的传统方法是元文法语言建模假定当前词 与互信息触发器结合的方法解决了模型丰富的 的条件概率与该词前面的 个词相关与其他词无关 上下文关系和长距离依赖问题刘志文等人 介绍了基于 目前维吾尔语等小语种可用资源仍在不断完善语言处理相 对的长距离蒙古语语言模型的三种实现方法体现了语言 关研究处于探索阶段 维吾尔语属于黏着语词与词之间 模型的优化对机器翻译的重要性等人 采用了因 词与词缀之间 依赖关系很高语言形态变化非常丰富 子化的语言模型充分利用语言形态变化的特征在单词层面 然而模型没有较好地考虑到丰富的语言特性和语法 上整合了附加的语言学标记但需要使用较高阶的模

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档