《机器翻译服务质量评价规范—中英双向》编制说明.pdfVIP

《机器翻译服务质量评价规范—中英双向》编制说明.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
团体标准 《机器翻译服务质量评价规范—中英双向》编制说明 一、工作简况 1.任务来源 本文件由中国质量协会和华为技术有限公司联合提出,2022 年 11 月 10 日 正式列入中国质量协会团体标准年度制修订项目计划。 2.编制目的 随着机器翻译(machine translation, MT)技术的发展,机器翻译已政府、 教育、企业等实体的公文、教育和外贸领域广泛的应用,成为翻译领域的重要组 成部分。 国际上 IBM、微软、谷歌等均在机器翻译上起步较早,特别是 IBM 首先提出 了机器翻译质量测试规则BLUE。国内主要有华为、腾讯、360、阿里、百度等龙 头信息技术公司从事机器翻译的服务提供和研究。相应的,部分高校将机器翻译 做为人工智能的一部分进行科研分类,如复旦大学、东北大学、哈工大等。但是 机器翻译质量参差不齐,服务和交付的标准不一,如何以统一的标准进行科学、 有效、高效的机器翻译质量评价,成为一个关键任务。目前机器翻译主要需求者 是大篇幅翻译采购者,包括政府、公司等单位,相应的质量验收标准在合同中约 定较为模糊,并由服务提供者自行编制,缺乏公信力。 因此,中国质量协会和华为技术公司期望通过整合行业的力量(包含领先的 公司和专家学者)制定一个统一的机器翻译质量评估标准,用于机器翻译质量评 价的方法和指标,从而提升评价的准确度、覆盖度和效率,在有效指导机器翻译 质量改进的同时,提高行业的交付质量和标准。 翻译语向众多,不同语系之间存在较大差异,本文件聚焦使用最为广泛的中 英双向机器翻译的质量评价,为其他语向机器翻译的质量评价提供有益借鉴。 3.机器翻译服务质量评价相关背 《计算机科学技术名词》(第三版)将“机器翻译评价”定义为:人工或自动 评价机器翻译系统译文质量的过程、技术和方法。质量评价是机器翻译研究必不 可少的环节,无论是模型优化、上线、公司竞标等,都涉及机器翻译质量评价的 工作。 当前业界主流的评价方法分为自动评价和人工评价。自动评价方法,则运 用特定算法和程序自动生成度量指标,对比机器翻译译文和参考译文,自动完 成整个评价过程。自动评价的优点在于快速、高效、可复现。人工评价方法基 于评价人员的专业能力,对机器翻译译文进行打分,准确反映出翻译的质量。 因人是机器翻译的最终用户,所以人工评价更有说服力,可解释性更强。这两 种评价方法,在 CCMT (中国最负盛名的机器翻译学术研讨组织,每年召开一 次,/mt/conference)及WMT (全球最负盛名的机器 翻译学术研讨组织,每年召开一次,/wmt)竞 赛活动、及企业对机器翻译质量自评估活动中广泛使用。 1 2 自动评价方法中,起草组选取了BLEU 和 COMET 两个具体指标。BLEU 指标 被 WMT 和 CCMT 采纳,COMET 被 WMT 采纳,用于评价每年参赛机器翻译模型的质 量优劣。BLEU 是一种简单高效的统计评价方法,2002 年提出后已成为当前学术 界、业界首选的自动评价方法。其论文至今被引用了 23000+次。COMET 是近年 来基于神经网络技术的新评价指标,于 2020 年提出。其论文至今已被引用 400+次。COMET 算法更能衡量机器翻译译文与参考译文的语义相似度,与人工 3 评价的相关性更高 。因自动评价方法对标人工翻译的参考译文,参考译文的优 劣会影响指标的准确性。除此之外,测试集构成的合理性也会影响评价结果, 起草组在标准内已说明测试集构建标准。 人工评价方法中我们选用了直接打分法,该方法简单高效,是 WMT 从 2016 年开始沿用至今的评测方法。评价人员的双语水平会影响打分的客观性。因 此,起草组在本团体标准中,对评价人员的能力做了明确要求。除此之外,同 自动评价,测试集构成的合理性也会影响评价结果的客观性。 综上,我们采用的评价指标与 WMT 设置一致,符合业界主流的机器翻译质 量评价要求。 4.主要编制过程 1)建立标准起草组 1 Papineni, Kishore, et

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8135026137000003

1亿VIP精品文档

相关文档