人工智能大模型体验报告.pptxVIP

下载本文档

0
0
约2.03万字
约 32页
2024-03-05 发布于云南
举报
版权申诉

人工智能大模型体验报告.pptx

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能大模型体验报告

迭代风潮之下，大模型产品如何迅速适应并引领市场变革

大模型更新迭代速度日新月异，OpenAI2022年11月发布了GPT3.5，2022年3月就发布了GPT4，参数规模成倍增长，2023

年6月百度发布了文心一言3.5，仅仅4个月之后百度又发布了文心一言4.0，基础模型全面升级，其他厂商的产品也在不断升级

迭代，大模型的发展速度可谓“日新月异”。

虽然大模型的性能不断提升，但是大模型在快速发展的同时也面临着一些问题——

•

不稳定：在GPT4上线初期，有大量用户反馈大模型的回答质量有所下降，尤其在程序生成方面，GPT4生成的代码时常出

现错误。OpenAI开发者推广大使LoganKilpatrick也坦言，由于大模型本身存在不稳定性，因此对于相通的提示词，大

模型存在回答前后不一致的情况。

幻觉：大模型仍然具有一定局限性，不是完全可靠的，会出现“幻觉”事实并犯推理错误。

安全：安全是重中之重。在模型训练、模型线上推理服务、模型安全测试、模型训练过程对齐、模型生成内容等方面的安

全合规能力需要持续加强。

市场需求也在发生变化，ChatGPT上线之初更多的人还是把它当成对话工具，但是不久ChatGPT的功能就得到深度挖掘，如今

各个领域的内容创作，以及和行业细分领域深度结合的应用越来越多，市场对于大模型的需求也随着用户所在行业的变化而不

断发生变化。

历时半年，大模型测评体系再次升级，助力持续发展之路

从历史视角观察，测评1.0与2.0阶段代表着大模型产品的初期评测阶段，主要基于小规模问题集进行评测。这种评测方式在初期

对于了解大模型产品的基本性能具有一定的价值。然而，随着时间的推移和技术的进步，课题组发现在经过这两次测评后，众多厂商

开始根据测评题目进行定向优化。通过针对测评数据集特定调整，以获取相对较好的排名。

此次推出的大模型评测，其核心目标是获取客观、真实的产品结果，并希望通过评测向客户反馈产品真实体验状况，并推动产品

的实际进步。针对目前市场上出现的问题，研究团队认为，亟须对评测方式进行优化，确保评测能够全面反馈产品现状。为确保评测

能够全面反馈产品现状，课题组实施了以下策略来调整和优化评测体系：

评估维度立体化

多维度全面考察，立体展现模型性能，

避免单一指标偏颇。从数据准确性、

模型稳定性、到算法效率，全方位、

多角度深入评估，实现真实且全面的

性能展现。

主观评价融合客观结果

既注重客观数据衡量的精准性，又兼

顾用户主观感受的真实性，以用户为

中心，让产品的优质体验真正落地，

助推质量提升。

指标随市场情况动态变动

随着市场环境的变迁和技术进步，及

时对评估指标进行更新与调整，确保

评估体系始终保持与市场需求的紧密

关联。

增加了厂商技术维度和潜力评估。在评测过程中，不仅考虑模型产品的实际表现，还深入评估厂商的技术实力和未来发展潜

力。用三维视角更全面的观察厂商，体现出厂商在技术和市场方面的综合实力。

分数评估更加客观：本次测评使用机器自动化流程进行第一轮打分，再辅以专家团队进行复核，避免了一些主观因素。

题库数量扩充。在3.0版本中，题库扩充到了1000道，并精选其中的400道进行实际问答测试。大大提升了评测的广度和深

度，能更准确地反映模型在不同场景和问题下的实际表现。

3.0版本在总分计算方式上也做了调整。之前版本的总分经过加权处理，而3.0版本取消了加权，直接展示真实得分。使得评

测结果更为直观，也更能真实反映模型的性能。

专家团再次进行了升级。新的专家团队在经验和专业度上都有了提升，专业判断和建议将为评测提供更坚实的支撑。

本次评测规则（1/2）

基于优化策略，新华社研究院中国企业发展研究中心正式推出全新的大模型评测3.0版本。此次升级在多方面都呈现出显著的提

升和改进：

注：本次测评时间为2023年10月25日-2023年11月6日

评测大模型产品技术&潜力

评估指标

本次评测规则（2/2）

分数

5分

4分

3分

2分

1分

0分

开放型问题

问题答案较为完美，内容可在

实际场景中直接使用

基本可用，可在实际场景中使

用

调整可用，但需人工进行调整

后方可使用

大略可用，需要较多人工调整

方可使用

不可用，答非所问、语言不通

无法作答

封闭式问题

答案正确且有相关

解读

答案正确

答案错误，但有推

理过程

答案错误，没有推

理过程

一级指标

技术实力

发展潜力

二级指标

平台性能

安全性能

模型可解释性

实时性能

社会认可度

创新能力

市场前景

三级指标

您可能关注的文档

文档评论（0）

1658576823bd104 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

人工智能大模型体验报告.pptxVIP