计算机行业AI前沿系列(一):混合专家模型技术(MoE)-20230818-中信建投-24页.pdf

计算机行业AI前沿系列(一):混合专家模型技术(MoE)-20230818-中信建投-24页.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
证券研究报告行业动态报告 AI前沿系列(一):混合专家模型技术(MoE) 分析师:阎贵成 分析师:金戈 分析师:于芳博 yanguicheng@ jinge@ yufangbo@ SAC编号:S1440518040002 SAC编号:S1440522030001 SAC编号:S1440517110001 SFC编号:BNS315 SFC 中央编号:BPD352 发布日期:2023年8月18日 本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。 核心观点 • 核心观点:混合专家模型技术(MoE)是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE通过门控网络实现任务/训练数据在 不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。随着大模型参数量的持续提升,MoE在提升计 算效率方面展现出强大的能力。同时,近年来MoE逐渐与不同领域的模型相结合,包括自然语言、图像、推荐系统、多模态等,并展现 出优秀的性能。后续MoE技术将在提升训练及推理效率、优化模型性能和边缘端侧AI应用等方面发挥重要作用,建议关注相关研究进 展。 • 混合专家模型技术(MoE)让模型具有稀疏性,进而提高模型计算效率。在传统的密集模型中,输入的内容要在整个模型中进行计算,而 MoE 通过门控模型将输入内容分配至一个或多个专家模型,保证在单次处理中只有少数专家模型被激活或使用,而大部分专家模型处于 未被激活状态,从而实现模型的稀疏性。这一性质大幅提高了模型的计算效率,例如Switch Transformer的训练速度最高可以达到T5模型 (参数量相近情况下)的7倍,而V-MoE相较于ViT模型,达到相同性能的情况下节省了2.5倍的算力消耗。 • 混合专家模型(MoE)技术目前在多个AI细分领域中有所应用,性能提升显著。近年来随着MoE技术的不断突破,其在自然语言处理、计 算机视觉、多模态、推荐系统等丰富场景中有所应用。相较于密集模型而言,稀疏的MoE模型在性能和计算效率上都有显著提升,例如 NLP领域的GLaM模型在零样本、单样本和少样本学习任务上相较于GPT-3分别实现了平均10.2%、6.3%和4.4%的性能提升,多模态领域 的LIMoE在零样本、少样本的图像分类任务中的绝对平均性能相较于CLIP分别实现了10.1和12.2%的提升。 • 展望未来,混合专家模型(M

您可能关注的文档

文档评论(0)

std85 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档