- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
人工智能大模型体验报告
5
迭代风潮之下,大模型产品如何迅速适应并引领市场变革
1.
2.
大模型更新迭代速度日新月异,OpenAI2022年11月发布了GPT3.5,2022年3月就发布了GPT4,参数规模成倍增长,2023
年6月百度发布了文心一言3.5,仅仅4个月之后百度又发布了文心一言4.0,基础模型全面升级,其他厂商的产品也在不断升级
迭代,大模型的发展速度可谓“日新月异”。
虽然大模型的性能不断提升,但是大模型在快速发展的同时也面临着一些问题——
•
•
•
不稳定:在GPT4上线初期,有大量用户反馈大模型的回答质量有所下降,尤其在程序生成方面,GPT4生成的代码时常出
现错误。OpenAI开发者推广大使LoganKilpatrick也坦言,由于大模型本身存在不稳定性,因此对于相通的提示词,大
模型存在回答前后不一致的情况。
幻觉:大模型仍然具有一定局限性,不是完全可靠的,会出现“幻觉”事实并犯推理错误。
安全:安全是重中之重。在模型训练、模型线上推理服务、模型安全测试、模型训练过程对齐、模型生成内容等方面的安
全合规能力需要持续加强。
3.
市场需求也在发生变化,ChatGPT上线之初更多的人还是把它当成对话工具,但是不久ChatGPT的功能就得到深度挖掘,如今
各个领域的内容创作,以及和行业细分领域深度结合的应用越来越多,市场对于大模型的需求也随着用户所在行业的变化而不
断发生变化。
6
历时半年,大模型测评体系再次升级,助力持续发展之路
从历史视角观察,测评1.0与2.0阶段代表着大模型产品的初期评测阶段,主要基于小规模问题集进行评测。这种评测方式在初期
对于了解大模型产品的基本性能具有一定的价值。然而,随着时间的推移和技术的进步,课题组发现在经过这两次测评后,众多厂商
开始根据测评题目进行定向优化。通过针对测评数据集特定调整,以获取相对较好的排名。
此次推出的大模型评测,其核心目标是获取客观、真实的产品结果,并希望通过评测向客户反馈产品真实体验状况,并推动产品
的实际进步。针对目前市场上出现的问题,研究团队认为,亟须对评测方式进行优化,确保评测能够全面反馈产品现状。为确保评测
能够全面反馈产品现状,课题组实施了以下策略来调整和优化评测体系:
评估维度立体化
多维度全面考察,立体展现模型性能,
避免单一指标偏颇。从数据准确性、
模型稳定性、到算法效率,全方位、
多角度深入评估,实现真实且全面的
性能展现。
主观评价融合客观结果
既注重客观数据衡量的精准性,又兼
顾用户主观感受的真实性,以用户为
中心,让产品的优质体验真正落地,
助推质量提升。
指标随市场情况动态变动
随着市场环境的变迁和技术进步,及
时对评估指标进行更新与调整,确保
评估体系始终保持与市场需求的紧密
关联。
7
1.
2.
3.
4.
5.
增加了厂商技术维度和潜力评估。在评测过程中,不仅考虑模型产品的实际表现,还深入评估厂商的技术实力和未来发展潜
力。用三维视角更全面的观察厂商,体现出厂商在技术和市场方面的综合实力。
分数评估更加客观:本次测评使用机器自动化流程进行第一轮打分,再辅以专家团队进行复核,避免了一些主观因素。
题库数量扩充。在3.0版本中,题库扩充到了1000道,并精选其中的400道进行实际问答测试。大大提升了评测的广度和深
度,能更准确地反映模型在不同场景和问题下的实际表现。
3.0版本在总分计算方式上也做了调整。之前版本的总分经过加权处理,而3.0版本取消了加权,直接展示真实得分。使得评
测结果更为直观,也更能真实反映模型的性能。
专家团再次进行了升级。新的专家团队在经验和专业度上都有了提升,专业判断和建议将为评测提供更坚实的支撑。
本次评测规则(1/2)
基于优化策略,新华社研究院中国企业发展研究中心正式推出全新的大模型评测3.0版本。此次升级在多方面都呈现出显著的提
升和改进:
8
注:本次测评时间为2023年10月25日-2023年11月6日
评测大模型产品技术&潜力
评估指标
本次评测规则(2/2)
分数
5分
4分
3分
2分
1分
0分
开放型问题
问题答案较为完美,内容可在
实际场景中直接使用
基本可用,可在实际场景中使
用
调整可用,但需人工进行调整
后方可使用
大略可用,需要较多人工调整
方可使用
不可用,答非所问、语言不通
无法作答
封闭式问题
答案正确且有相关
解读
答案正确
答案错误,但有推
理过程
-
-
答案错误,没有推
理过程
一级指标
技术实力
发展潜力
二级指标
平台性能
安全性能
模型可解释性
实时性能
社会认可度
创新能力
市场前景
三级指标
文档评论(0)