专栏名称: EBoversea

光大证券海外市场研究，仅面向专业机构投资者，供新媒体背景下研究观点的及时沟通交流。非专业投资者请勿订阅本公众号，亦勿以本订阅号中的任何信息作为投资操作的依据

【光大海外】“AI核弹”Blackwell发布，英伟达向AI软硬一体平台转型

EBoversea · 公众号 · · 2024-03-21 15:00

正文

【特别提示】本订阅号中所涉及的证券研究信息，均取自于光大证券已正式外发研究报告，由光大证券海外研究团队(TMT/消费/医药/制造等)编写，仅面向光大证券专业投资者客户，用作新媒体形势下研究动态的宣传。研究报告有时效性，任何研究报告内容仅代表报告外发时特定时点的研究信息汇总，任何关于研究报告、研究观点的解读，请联系对口销售或具体研究员。非光大证券专业投资者客户，请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限，若给您造成不便，敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。

报告发布信息

报告标题：《Blackwell平台实现AI性能跃升，软硬协同助力英伟达转型AI全链条平台——英伟达GTC 2024大会点评》

报告发布日期：2024年3月21日

分析师：付天姿（执业证书编号：S0930517040002）

分析师：王贇（执业证书编号：S0930522120001）

联系人：董馨悦

往期回顾

‍ ‍ ‍ 【光大海外TMT】惠普、慧与、戴尔科技业绩表现不一，AI服务器需求强劲增长——AI算力产业链跟踪报告（八）

‍ ‍ ‍ 【光大海外】ARM：FY24Q3业绩和Q4指引超预期，强劲AI需求提供增长新动力——AI算力产业链跟踪报告（七）

【光大海外TMT】AMD：看好业绩24Q1触底后回升，公司上调24年数据中心GPU指引——AI算力产业链跟踪报告（六）

【光大海外TMT】英特尔：数据中心业务逆风致24Q1指引疲软，24全年有望修复——AI算力产业链跟踪报告（五）

【光大海外TMT】美股巨头财报季序幕拉开，印证AI算力产业链持续高景气——AI算力产业链跟踪报告（四）

【光大海外TMT】AI芯片助力台积电Q3盈利超预期，消费电子需求企稳展现复苏信号——AI算力产业链跟踪报告

‍ ‍ ‍

要点

事件： 美国时间3月18日-3月21日期间，英伟达举行GTC 2024大会。其中美国时间3月18日下午1:00-3:00，英伟达CEO黄仁勋发表了《见证AI的变革时刻》的主题演讲，分享在芯片迭代、软件生态和机器人等应用上的进展。

Blackwell新架构：多芯片封装、Transformer 引擎和互联传输升级，助力单芯片性能和整体算力集群性能提升。 1）4NP制程+双芯片设计，将2颗GPU以10 TB/s通信速率融合成一颗芯片，晶体管数量由H100的800亿提升至2080亿，大幅提升单芯片处理能力；2）第二代Transformer引擎，使Blackwell具备在FP4精度的AI推理能力，能在将性能和效率翻倍的同时保持混合专家模型的高精度；3）互联传输方面，NVLink + NVLink Switch + X800系列交换机提升集群通信连接速率；4）内嵌解压引擎、RAS引擎和加密协议。

通信互联：推出第五代NVLink、NVLink Switch和X800系列交换机，增强大规模AI算力网络传输速度 。1）第五代NVLink：带宽突破1.8TB/s，相比第四代提升一倍；2）NVLink Switch：支持576颗GPU组成计算集群，上一代仅支持256颗GPU连接；3）X800系列交换机：成为全球首款具备端到端 800Gb/s 吞吐量的网络平台，相比上代产品带宽容量提高5倍，网络计算能力提高9倍。

英伟达推出B200 GPU、超级芯片、服务器到大型算力集群等全套算力硬件组合。 1）B200：搭载8颗HBM3e，内存容量达192GB，FP4精度下算力高达20 PFLOPS，预计2024年晚些时间上市；2）超级芯片GB200：2颗Blackwell GPU +1颗Grace CPU，FP4精度下算力高达40PFLOPS；3）超级计算机GB200 NVL72：72颗BlackwellGPU+36颗Grace CPU，训练和推理性能相比等同数量的H100 GPU表现提升4倍和30倍；4）DGX Super POD：一站式 AI 超算解决方案，搭载8套 DGX GB200 NVL72系统，有望成为未来重要基础设施。

软件工具链：NIM打通软硬件、降低客户软件开发难度，NeMo帮助企业采用专用数据开发定制大模型，英伟达将逐步转型成类苹果/微软的平台提供商。 1）NIM推理微服务：集成数十个企业级生成式AI模型，可提供从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路，帮助开发者在CUDA GPU上创建和部署生成式AI应用；2）NeMo Retriever：挖掘企业“数据金矿”价值，客户可以使用其他公司或英伟达提供的行业基础NeMo并添加自己的数据来生成专用大模型；3）NIM已在半导体、医药等多领域落地。

软件应用：英伟达拓展AI应用发展方向，积极在机器人和自动驾驶等领域开展合作。 1）机器人：英伟达看好AI+机器人领域前景，发布机器人基础大模型Project GR00T，推出Jetson Thor计算机、Isaac软件开发工具和库等，并与众多公司在机器人开发领域达成合作关系；2）自动驾驶：自动驾驶芯片采用Blackwell新架构，英伟达与比亚迪等车企加强合作。

硬件迭代+软件协同+拓展应用领域，我们看好AI算力产业链维持高景气度，建议关注： 1）英伟达：AI芯片性能强劲，软硬件协同服务打开想象空间；2）其他AI芯片：AMD、英特尔；3）服务器：超微电脑、联想集团、工业富联、戴尔科技、慧与；4）HBM：三星电子、SK海力士、美光科技；5）ASIC芯片设计：Marvell科技、博通；6）CoWoS：台积电、日月光、Amkor科技；7）CoWoS设备：ASMPT；8）云技术服务商：Oracle；9）光模块：中际旭创。

风险分析： 1）下游应用程序开发和场景拓展较慢，导致AI商业化进度不及预期；2）B200等新品产能扩张受限，数据中心业务出货量不及预期；3）若AIGC进展不及预期，大模型训练和推理的算力需求高速增长的可持续性或降低。

正文

硬件：“AI核弹”Blackwell新架构发布，硬件设备全面升级

英伟达Blackwell新架构实现从GPU、互联通信、超级芯片到大型算力集群的全面性能提升。英伟达CEO黄仁勋将Blackwell架构称为“推动新一轮工业革命的引擎”，并定义其成为计算平台，一方面实现训练、推理性能、通信传输速度、能效的大幅提升，另一方面构建GPU、网络通信产品、AI超级芯片、服务器、大型算力集群、云服务等全套硬件产品，我们认为英伟达从芯片厂商走向了类“苹果”的平台之路。

1.1 Blackwell新架构：单芯片性能和整体算力集群性能提升明显

多芯片封装、Transformer引擎和互联传输升级，帮助Blackwell实现单芯片和整体算力集群的表现升级。时隔两年，英伟达发布全新Blackwell架构，相较于上一代Hopper架构的产品，Blackwell架构的芯片和相关硬件设备以提升单个芯片的性能为基础，同时加强了大规模AI算力集群的算力，全面提升AI大模型的加速效果。此次Blackwell架构有以下6个方面的技术突破：

（1）制程优化，首次采用双芯片设计： 采用定制的、双reticle的台积电4NP（4N工艺的改进版本）制程工艺，首次采用MCM（多芯片封装），将两个GPU裸片通过C2C以10 TB/s通信速率融合在一个芯片中，晶体管数量达到了2080亿。没有内存局部性问题或缓存问题，因此CUDA将其视为单块GPU，从而大幅度提高了处理能力。

（2）内嵌第二代Transformer Engine提升Transformer模型的加速效果： 第二代Transformer Engine 使用 Blackwell Tensor 核心技术，将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合，使Blackwell具备在FP4精度的AI推理能力，可支持2倍的计算和模型规模，能在将性能和效率翻倍的同时保持混合专家模型的高精度，提升了不同参数规模Transformer模型的加速效果。

（3）第5代NVLink技术和NVLink Switch提升集群通信连接速率： 第五代NVLink将GPU卡间连接速率提升到1.8TB/S，NVLink Switch支持与多个NVLink连接，可高速互联576颗GPU组成计算集群，为AI大模型高密度、大规模训练提供有力的AI算力支持。

（4）内嵌加密协议，保障数据安全： Blackwell芯片引入的原生界面加密协议包含NVIDIA机密运算，能以强大的硬件安全防护来保护敏感资料和AI模型，保障计算过程中的数据安全。

（5）配备解压引擎，为大数据处理和数据科学场景提供有力支持： Blackwell 配备解压引擎，运用900 GB/s的双向频宽，有效支持当前最新的数据格式的处理、查询和分析，实现资料分析与资料科学的最高效能。

（6）内嵌RAS引擎，保障AI训练的稳定性： Blackwell架构的芯片内嵌的RAS引擎可快速定位问题来源并实行有效的补救措施，尽可能减少停机时间，同时可自动预测、通过智能化预防措施处理在训练过程中可能出现的问题，从而保障长时间的AI训练。

1.2、 B200 GPU：基于Blackwell架构，实现算力增长、内存升级和网络传输加快

B200首次采用多芯片封装（MCM），实现算力增长、内存升级和网络传输加快。 作为NVIDIA Blackwell架构首款新产品，B200采用双芯片设计，两个芯片通过C2C连接成一个GPU，互联速度高达10TB/s；并采用台积电定制的4NP制程，晶体管数量达到2080亿，对比上一代Hopper架构的H100晶体管数量只有800亿（未采用双芯片设计）。B200预计2024年晚些时间上市。

1）双芯片设计+第二代Transformer引擎，助力算力大幅提升至2.5倍。使用定制的Blackwell Tensor核心技术，支持新的FP4、FP6精度计算加速AIGC推理和LLM，在FP4精度下，AI算力可实现20 PFLOPs，提升至H100 4PFLOPs的2.5倍；

2）搭配8颗HBM3e内存（Hopper架构的H200共计6颗），内存容量达到192GB；

3）采用第五代NVLink高速互联，带宽突破1.8 TB/s，相比Hopper架构和Ampere架构有了巨幅提升，最大可支持10万亿参数的模型的训练。

1.3、通信互联：NVLink+NVLink Switch+X800系列交换机，增强大规模AI算力网络传输速度

第五代NVLink带宽突破1.8TB/s。 NVLink可在内存墙无法突破的情况下，最大化提升CPU和GPU之间通信的效率，于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用，当时的带宽为160GB/s，到H100采用的第四代NVLink，其带宽已经达到900GB/s，而B200采用的第五代NVLink带宽提升一倍、突破1.8TB/s。

最新NVLink Switch芯片支持576颗GPU组成计算集群。 NVLink Switch支持与多个NVLink连接，实现NVLink在单节点、节点之间互联，进而创建更高带宽的GPU算力集群，基于最新的NVLink Switch芯片（台积电4nm工艺，500亿个晶体管），可实现576颗GPU组成计算集群，上一代产品仅支持256颗GPU。

X800系列交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台。 英伟达还新发布了搭载64个800Gb/s端口、配备RoCE自适应路由的NVIDIA Quantum-X800 InfiniBand交换机，和搭载144个800Gb/s端口，网络内计算性能达到14.4TFLOPs的Spectrum-X800交换机。X800系列新交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台，与上一代产品相比，带宽容量提高了5倍，网络计算能力则凭借NVIDIA SHARPv4技术提高9倍。Quantum-X800 InfiniBand交换机和Spectrum-X800交换机面对客户群体略有差异：

1）Quantum-X800 InfiniBand：包含Nvidia Quantum Q3400交换机和Nvidia connectX-8 SuperNlc，适用于追求超大规模、高性能的客户；

2）Spectrum-X800以太网：包含Spectrum SN5600 800GB/S交换机和Nvidia BlueField-3 SuperNIC，适用于多租户、工作负载多样性，且需融入生成式AI应用的客户

X800系列交换机的首批采用者包括Microsoft Azure、Oracle Cloud Infrastructure（OCI）和Coreweave等，预计将于明年上市。

1.4、单芯片和互联产品帮助打造大规模AI算力集群，实现性能跃升和能耗降低

英伟达从售卖单芯片转向售卖算力硬件系统，推出超级芯片GB200（2 GPU+1 CPU）、超级计算机GB200 NVL72（72 GPU+36 CPU）和DGX Super POD一站式AI超算解决方案（576 GPU+288 CPU）。

超级芯片GB200：新精度下算力大幅提升。 GB200是通过900GB/s 低功耗NVLink芯片间互连，将2颗Blackwell GPU + 4个die + 1颗ARM Grace CPU连接得到的超级芯片，具备16TB/s的HBM、3.6TB/s的显存带宽。计算性能上，在新的FP4精度下可达到40PFLOPs的AI算力，是上一代产品H200在FP8精度的5倍。

超级计算机GB200 NVL72：训练和推理性能跃升，能耗成本大幅下降。 英伟达在会上发布了通过第五代NVL互连的72颗Blackwell GPU、36颗Grace CPU以及BlueField-3 DPU组合而成的服务器GB200 NVL72，在新的FP4精度下推理算力高达1440 PFLOPs，FP8精度的训练算力高达720Pflops，传输量最大达到260TB/s，几乎相当于一个超级计算机集群。GB200 NVL72在训练和推理方面相比上一代均实现大幅提升：

1）训练性能高达GH100的4倍：2000颗GPU的GB200 NVL72加速卡可在90天内消耗4兆瓦电力训练1.8万亿参数的GPT-Moe，等同于使用8000颗GPU的GH100加速卡消耗15兆瓦电力训练90天的效果，训练性能高达GH100的4倍；

2）推理性能提升至30倍，成本与能耗降低25倍：与相同数量（72颗）H100相比，GB200 NVL72 对于LLM推理工作负载的性能提升高达30倍，并将成本和能耗降低高达25倍。

一站式AI超算解决方案DGX Super POD：打造大型AI算力集群，有望成为训练和推理的重要基础设施。 英伟达还推出了基于GB200的DGX Super Pod一站式AI超算解决方案，采用高效的一体式液冷机架，搭载8套DGX GB200 NVL72系统，即288颗Grace CPU和576颗Blackwell 200 GPU，内存达到240TB，FP4精度计算性能达到11.5ELOPs（每秒11.5百亿亿次），相比上一代产品的推理性能提升30倍，训练性能提升4倍。

软件：NIM帮助英伟达转型软硬件平台商，积极拓展AI+机器人等应用领域

英伟达CEO黄仁勋表示，Blackwell不仅是芯片架构，也是平台名称。英伟达在GTC 2024大会上，不仅推出全套硬件产品，也推出NIM、NeMo等软件开发工具，帮助客户在英伟达的软件生态中构建模型，致力于以软硬件的整体打包方案输出给客户。我们认为，英伟达正在逐渐转型成类似微软或苹果的平台提供商。

2.1、工具链：NIM打通软硬件、降低客户软件开发难度，NeMo帮助企业采用专用数据开发定制大模型

2.1.1、NVIDIA NIM：集成生成式AI微服务，构建软硬件生态闭环

NIM集成了数十个企业级生成式AI模型，定位AI软件“晶圆厂”。 黄仁勋认为NIMs（Nvidia inference micro service）是未来开发软件的新形式，通过与AI聊天的形式调动NIMS中的微服务来完成训练、应用的部署。NIM中包括数十项企业生成式AI微服务，企业可以利用这些微服务在自己的平台上创建和部署定制应用，同时保留对知识产权的完整所有权和控制权。

NIM软件提供了从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路。 NIM包含了针对英伟达GPU高度优化的模型以及提高推理性能所需要的技术，让构成 GenAI 应用程序可以完成直达NVIDIA GPU的全链路优化：

【光大海外】“AI核弹”Blackwell发布，英伟达向AI软硬一体平台转型

正文

1.2、 B200 GPU：基于Blackwell架构，实现算力增长、内存升级和网络传输加快

1.3、 通信互联：NVLink+NVLink Switch+X800系列交换机，增强大规模AI算力网络传输速度

1.4、 单芯片和互联产品帮助打造大规模AI算力集群，实现性能跃升和能耗降低

软件：NIM帮助英伟达转型软硬件平台商，积极拓展AI+机器人等应用领域

2.1、 工具链：NIM打通软硬件、降低客户软件开发难度，NeMo帮助企业采用专用数据开发定制大模型

2.1.1、NVIDIA NIM：集成生成式AI微服务，构建软硬件生态闭环

请到「今天看啥」查看全文

1.3、通信互联：NVLink+NVLink Switch+X800系列交换机，增强大规模AI算力网络传输速度

1.4、单芯片和互联产品帮助打造大规模AI算力集群，实现性能跃升和能耗降低

2.1、工具链：NIM打通软硬件、降低客户软件开发难度，NeMo帮助企业采用专用数据开发定制大模型