中文大模型基准测评2023年度报告.pptx

下载文档

3
0
约1.52万字
约 48页
2024-01-05 发布于广东
举报
版权申诉
保障服务

中文大模型基准测评2023年度报告.pptx

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文大模型基准测评2023年度报告

—AI跃迁的2023，中文大模型进展评估;;;;

文化/零售/交通

妙笔大模型

银河大模型

......;

过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与GPT3.5的20分差距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对GPT3.5的超越。

我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致，在11月份测评结果中显示，在中文能力都有一定的下滑，而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到，国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。

说明：

趋势展示，选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型，选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献；GPT4成绩，由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成，用

以表现国外最好模型发展。;

第2部分

测评体系、方法说明;

03;

创生

文话

上

取理

与语

百知

码

代

推逻;;;

超级模型(裁判)

A:文心一言4.0

B:gpt3.5-turbo

模型A的回答创造性地扩展了原有的文案，加入了家庭安全方面的应用，如老人摔倒检测和入侵检测，并维持了主题一致的“魔法”元素，这样的文案能够有效吸引用户的注意，并且关注点转移到家庭安全这一增加的功能上。

模型B在回答中也有效地扩充了关于家庭安全功能的描述，保持了与原文案相似的格式，成功地整合了入侵检测和摔倒监测的新信息，让用户了解到产品的新应用场景。

两个模型都做到了准确地回答了问题并且保持了高度的相关性，同时也都扩展了文案来包括新的家庭安全特性，提供了实用性的信息。在这个基础上，模型A的创意元素—用“魔法”寓意来打???用户，和模型B的实用性—强调产品带来的平安感，都各有卖点。

综上所述，两个模型的回答在满足准确性和相关性的同时，从实用性和创造性的角度来看，两者提供的内容是相当的，因此我的最终评判结果是：平局;

超级模型(裁判)

A:GPT4-Turbo

B:gpt3.5-turbo

第一个问题：首先对于准确性，模型A回答是正确的。他列举了所有相关人物的计算过程，逐一解释了每个人的年龄如何计算，并正确得出Frank和Dave之间的年龄差是68岁。模型B直接给出了一个答案22岁，这是错误的。模型B似乎没有理解问题的含义，也没有提供如何得出这个答案的过程。问题是问Frank和Dave之间的年龄差，模型B的计算过程不清不楚，似乎错误地将Bob和Frank的年龄差解释为Frank和Dave的年龄差。在相关性方面，模型A的回答与问题完全相关，它正确地解答了用户的问题，并给出了合适的计算过程。模型B的回答虽然与问题的主题(即年龄差)相关，但却没有正确回答问题，因此相关性不足。由于准确性和相关性是首要的判断标准，模型A在这两方面都表现出更好的质量，因此应该被评为更好的回答。模型B因为错误且未给出推理过程，所以被评为较差的模型。最终判决：[[A]]

关于第二个问题：模型B的解释出现了错误，它错误地假设了“Dave的父亲是Bob”，这实际上没有给出在给定信息中

您可能关注的文档

文档评论（0）

沧海一粟2020 + 关注: 实名认证

内容提供者

文不能提笔控萝莉，武不能骑马战人妻，入佛门则六根不净，入商道则狼性不足，想想还是做文字民工！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

中文大模型基准测评2023年度报告.pptx