电子行业AI系列之Computex2024：英伟达主题演讲-AI时代如何在全球范围内推动新的工业革命.pptx

下载文档

19
0
约3.26千字
约 19页
2024-06-26 发布于北京
举报
版权申诉
保障服务

电子行业AI系列之Computex2024：英伟达主题演讲-AI时代如何在全球范围内推动新的工业革命.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? 6月2日晚，英伟达CEO黄仁勋在台北ComputeX2024大会上展示了英伟达在加速计算和生成式AI领域的最新产品，梳理了未来计算、应用包括AI机器人技术的发展与应用，从AI硬件、软件、生态、下游应用等全方位梳理英伟达在AI领域的产品与发展路径。;;举例：专用处理器可以将需要处理很长时间的事情，加速到很快，并且成本相对较低。例如这里本身100T的事情，原本需要100个小时去处理，但是发明了CPU+GPU的架构，可以并行独立处理，现在只需要1个小时，但是它所需的电力成本只增加了3倍，而成本可能只增加了50%。

门槛：软件层面是GPU的最大门槛。从CPU切换到GPU，需要重写底层软件等，使其能够被加速并行计算。为了使加速计算能得到广泛应用，英伟达创新了一系列不同领域的库。虽然加速计算技术能够带来芯片显著的性能提升和成本节约，但也需要软件相匹配，以适应加速器并行运行，这不仅需要重新设计和编码，而且要求深入理解并行计算原理。为此，经过英伟20年里的研究，推出了一系列库。;;?上周，谷歌宣布他们将cuDF放进了他们的云端系统，使他们的pandas更快。这是世界上最受欢迎的数据科学库，它被世界上1000万数据科学家使用，每个月下载170次。现在只需要一个键，就可以使用它，发现使用起来很快。当你加速数据处理那么快时，演示不会花费很长时间。;? 回顾NV与AI发展历程：

2012年，公司研究人员发现原先的CUDA架构是非常好用的，为了使深度学习成为可能，开始和很多科学家进行合作；

2016年，英伟达将公司研发的第一台DGX超级电脑出售给OPENAI；

2017年，世界出现了Transformer，在数千个、数万个NvidiaGPU上训练，并有企业有了成果。例如，OPENAI宣布了Chat

GPT，5天后就拥有了100万用户，2个月后拥有数百万用户。

2022年，OpenAI发布了ChatGPT，五天内用户达到一百万，两个月内达到一亿，成为历史上增长最快的应用。;;;? AIPC：本次Computex英伟达展示了四款新的令人惊叹的笔记本电脑，它们都能够运行AI。未来的PC将会成为一个AI，AI将在不同的方式中表现出来并被用于PC中。PC将成为非常重要的AI平台。英伟达把TensorcoreGPU放在RTX，已经将一??AIGPU出货了，目的是为了营造AI芯片基础的消费市场，公司知道要创造一个运算平台，先必须把这个基础打好。黄仁勋认为，未来大家的个人PC就是AIPC，会在各个方面帮助很多。;AI工厂：最初作为超级计算机的计算机现在已经演变成了一个数据中心，它只生成一种东西，那就是token，它是一个AI工厂。运算方式不断改变，现在可以处理大型模型，未来电脑会生成符合需求的东西，电脑不是工具而是生成新的技能，未来这个产业也不单是设计应用程序，而是可能大量用于制造。

英伟达并非简单的芯片厂商，持续致力于为客户提供一整套AI解决方案，如Blackwell系列芯片。;人类标注的数据是有限的。Transformer使得无监督学习成为可能。所需算力不断增长，需要更大的GPU——Blackwell。

Blackwell特点：Blackwell架构以美国统计学家和数学家DavidHaroldBlackwell的名字命名，是英伟达首个采用MCM（多芯片封装）设计的GPU，基于该架构实现的B200是英伟达目前能实现的最大芯片，合计搭载2080亿晶体管（两个基础芯片通过10tb/秒的英伟达芯片对芯片链路连接成一个统一的GPU。和H100架构的6个HBM接口相比，Blackwell的拼接方式进采用了4个HBM接口，这样一来就在存储接口方面节约了芯片面积。从2016年Pascal架构提供19TFLOPS（FP16）至今，算力参数已经提升到了Blackwell架构提供的20PFLOPS（FP4），整整提升了1000倍。相比于Hopper平台，Blackwell平台具有六项革命性技术，在传统FP8精度下实现Hopper平台2.5倍性能，并新增FP4、FP6精度，FP4精度下实现Hopper平台的5倍性能表现,能够在拥有高达10万亿参数的模型上实现AI训练和实时LLM推理。;DGXB200：DGXB200搭载8个B200GPU，提供72PFLOPS训练算力和144PFLOPS推理算力，在推理、训练、加速数据处理中，分别表现出H100的15倍、3倍、2倍性能。根据英伟达在业绩说明会中表示，AI推理需求会不断上升，DGXB200在AI推理端性能的巨额提升将助力英伟达抢占AI推理市场。

GB200：GB200由两个B200和一个Grac