MoE与思维链助力大模型技术路线破局.docx

MoE与思维链助力大模型技术路线破局.docx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

投资建议 3

MoE另辟蹊径,有望破局大模型发展瓶颈 3

Transformer路径下,算力资源成为大模型发展的瓶颈 3

MoE框架是对Transformer架构的优化,而非完全替代 5

MoE基于门控函数设计方式可分为多种类型 7

MoE模型效益的关键在于路由策略及微调 9

针对MoE模型训练中的性能问题,LPU设计厂商有望破局 10

MoE模型降本增效,应用广泛 11

MoE模型在多个赛道表现优异 11

国内外厂商积极应用MoE框架,助力降本增效 15

OpenAIo1模型提供大模型训练及运用推理新范式 17

大模型OpenAIo1推理侧创新运用“思维链” 17

大模型结合强化学习开启应用推理新范式 18

简单的功能与高昂的成本,o1并非完美无缺 18

o1加速AGI实现,孕育应用蓝海 19

风险提示 20

投资建议

投资建议:随着Transformer架构大模型在算力侧成本攀升,升级迭代遇到

瓶颈,技术路线相关探索有望打造性能更优、应用范围更专更准的AI大模型。推荐标的:科大讯飞、虹软科技、万兴科技、福昕软件、金山办公、鼎捷软件、紫光股份、浪潮信息,受益标的:昆仑万维、润达医疗。

表1:推荐标的盈利预测

股票代码 股票名称 股价(元) EPS(元/股) PE(倍)

2024/9/182023A

2024/9/18

2023A

2024E

2025E

2023A

2024E

2025E

002230.SZ

科大讯飞

33.82

0.28

0.39

0.43

120.79

86.72

78.65

增持

688088.SH

虹软科技

23.86

0.22

0.36

0.48

108.45

66.28

49.71

增持

300624.SZ

万兴科技

40.42

0.64

0.51

0.57

63.16

79.25

70.91

增持

688095.SH

福昕软件

49.73

-1.03

-0.33

0.18

--

--

276.28

增持

688111.SH

金山办公

181.08

2.86

3.72

4.86

63.31

48.68

37.26

增持

300378.SZ

鼎捷软件

16.33

0.56

0.68

0.85

29.16

24.01

19.21

增持

000938.SZ

紫光股份

18.42

0.74

0.87

1.02

25.06

21.17

18.06

增持

000977.SZ

浪潮信息

31.16

1.1804

1.7

1.98

26.40

18.33

15.74

增持

数据来源:(以上公司盈利预测数据均来自国泰君安证券盈利预测)

MoE另辟蹊径,有望破局大模型发展瓶颈

Transformer路径下,算力资源成为大模型发展的瓶颈

Transformer模型通过扩大计算量(trainingFLOPs)达到更好的性能,算力是重要资源。2020年OpenAI的GPT-3开启大模型时代,此后多家公司快速发布基于Transformer架构的大模型。从架构机制看,Transformer架构

有以下特点:(1)自注意力机制:需要计算每个词与其他所有词之间的相关性,这种计算复杂度随着输入序列长度的增加而呈平方增长,(2)多头注意力机制:为了捕捉不同方面的语义信息,Transformer模型通常使用多头注意力机制,这进一步增加了计算复杂度。(3)层数深:Transformer模型通常具有很多层,每层都需要进行大量的矩阵运算,因此模型需要用到大量算力资源。从效益端看,基于Transformer架构的模型在训练计算量(trainingFLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在大模型训练任务中,算力成为必须的基础性资源。

图1:随着规模增加,模型能力呈现“涌现”现象

数据来源:《EmergentAbilitiesofLargeLanguageModels》

模型越来越大,算力成本越来越高。在算力方面,AI模型公司通常购买算力卡,再使用不同的计算框架和算法等部署大模型的计算集群。从算力供给看,英伟达算力卡需求较大,当前英伟达GPU的拿货能力已经成为大模型公司的核心能力;从需求端看,Transformer类架构模型运算量每两年约翻750倍,远超CV/NLP/Speech模型算力需求增长,更远远超过摩尔定律的速度。随着时间增长,模型运算量增长和芯片性能增长之间的巨大差距需要更好的下游集群策略来弥补,但集群策略将会越来越复杂,花费在算力上的成本也将更高。据第一财经透漏,2023.09-2023.11中贝通信向客户提供AI算力技术服务

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档