中文大模型基准测评2023年度报告.pptx

中文大模型基准测评2023年度报告.pptx

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

中文大模型基准测评2023年度报告

—AI跃迁的2023,中文大模型进展评估;;;;

文化/零售/交通

妙笔大模型

银河大模型

......;

过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。

我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。

说明:

趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成,用

以表现国外最好模型发展。;

第2部分

测评体系、方法说明;

02

03;

创生

文话

取理

与语

百知

推逻;;;

超级模型(裁判)

A:文心一言4.0

B:gpt3.5-turbo

模型A的回答创造性地扩展了原有的文案,加入了家庭安全方面的应用,如老人摔倒检测和入侵检测,并维持了主题一致的“魔法”元素,这样的文案能够有效吸引用户的注意,并且关注点转移到家庭安全这一增加的功能上。

模型B在回答中也有效地扩充了关于家庭安全功能的描述,保持了与原文案相似的格式,成功地整合了入侵检测和摔倒监测的新信息,让用户了解到产品的新应用场景。

两个模型都做到了准确地回答了问题并且保持了高度的相关性,同时也都扩展了文案来包括新的家庭安全特性,提供了实用性的信息。在这个基础上,模型A的创意元素—用“魔法”寓意来打???用户,和模型B的实用性—强调产品带来的平安感,都各有卖点。

综上所述,两个模型的回答在满足准确性和相关性的同时,从实用性和创造性的角度来看,两者提供的内容是相当的,因此我的最终评判结果是:平局;

超级模型(裁判)

A:GPT4-Turbo

B:gpt3.5-turbo

第一个问题:首先对于准确性,模型A回答是正确的。他列举了所有相关人物的计算过程,逐一解释了每个人的年龄如何计算,并正确得出Frank和Dave之间的年龄差是68岁。模型B直接给出了一个答案22岁,这是错误的。模型B似乎没有理解问题的含义,也没有提供如何得出这个答案的过程。问题是问Frank和Dave之间的年龄差,模型B的计算过程不清不楚,似乎错误地将Bob和Frank的年龄差解释为Frank和Dave的年龄差。在相关性方面,模型A的回答与问题完全相关,它正确地解答了用户的问题,并给出了合适的计算过程。模型B的回答虽然与问题的主题(即年龄差)相关,但却没有正确回答问题,因此相关性不足。由于准确性和相关性是首要的判断标准,模型A在这两方面都表现出更好的质量,因此应该被评为更好的回答。模型B因为错误且未给出推理过程,所以被评为较差的模型。最终判决:[[A]]

关于第二个问题:模型B的解释出现了错误,它错误地假设了“Dave的父亲是Bob”,这实际上没有给出在给定信息中

文档评论(0)

沧海一粟2020 + 关注
实名认证
内容提供者

文不能提笔控萝莉,武不能骑马战人妻,入佛门则六根不净,入商道则狼性不足,想想还是做文字民工!

1亿VIP精品文档

相关文档