通信-“合成数据+强化学习”：大模型进化的新范式.docxVIP

下载本文档

0
0
约1.85万字
约 28页
2024-09-21 发布于山西
举报
版权申诉

通信-“合成数据+强化学习”：大模型进化的新范式.docx

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

请仔细阅读本报告末页声明

证券研究报告|行业深度

2024年09月19日

通信

“合成数据+强化学习”：大模型进化的新范式

当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。

o1亮点一：或为OpenAI新模型“Orin”生成合成数据。据TheInformation，o1或为OpenAI新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手，2024年6月发布了大模型Claude3.5Sonnet，该模型使用了合成数据，在多个测试中的表现优于GPT4o。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。

o1亮点二：“合成数据+强化学习”，o1或确认大模型进化新范式。市场认为，ScalingLaw（指大模型随着参数的增大而增强能力）只存在于大模型训练阶段。但我们发现，根据OpenAI工程师JasonWei，o1使用了强化学习（RL）做思维链（ChainofThought）来训练模型；思维链可以使模型在推理阶段实现能力增强，即ScalingLaw可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习（RL），指模型A生成推理结果后，由模型B给推理结果打分，帮助模型A不断调整参数、迭代、进化，分成RLAIF（基于AI反馈的强化学习）和RLHF（基于人类反馈的强化学习）多种，后者曾因被用于ChatGPT而名声大噪。我们认为，o1系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIF（基于AI反馈的强化学习）逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择，相较于RLHF（基于人类反馈的强化学习），需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIF或许也是o1在代码、数学等问题上表现更好的原因。

投资建议：根据OpenAI，o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好，这表明o1“推理时，在响应用户前，思考更多”有助于让o1表现更好，这正是推理ScalingLaw。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”；相反，推理ScalingLaw仍将利好算力板块。建议关注：1）光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2）液冷服务商：英维克；3）PCB服务商：沪电股份等；4）AIDC：润泽科技等。

风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。

增持（维持）

行业走势

10% 2% -6%-14%-22%

10% 2% -6%-14%-22%-30%

2023-092024-012024-052024-09

作者

分析师宋嘉吉

执业证书编号：S0680519010002

邮箱：songjiaji@

分析师孙爽

执业证书编号：S0680521050001

邮箱：sunshuang@

您可能关注的文档

文档评论（0）

186****0576 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：5013000222000100

1亿VIP精品文档

更多 >

通信-“合成数据+强化学习”：大模型进化的新范式.docxVIP