专栏名称: EBoversea
光大证券海外市场研究,仅面向专业机构投资者,供新媒体背景下研究观点的及时沟通交流。非专业投资者请勿订阅本公众号,亦勿以本订阅号中的任何信息作为投资操作的依据
目录
相关文章推荐
Linux就该这么学  ·  告别繁琐操作!Linux ... ·  昨天  
奔腾融媒 都市全接触  ·  今起,呼和浩特开通临时公交专线! ·  2 天前  
Linux就该这么学  ·  Fedora即将登陆Win10/11 ... ·  2 天前  
Linux就该这么学  ·  微信新功能升级:可一次性删除所有“单向好友” ·  2 天前  
Linux爱好者  ·  AI 正在培养一代 “文盲程序员” ·  5 天前  
51好读  ›  专栏  ›  EBoversea

【光大海外】“AI核弹”Blackwell发布,英伟达向AI软硬一体平台转型

EBoversea  · 公众号  ·  · 2024-03-21 15:00

正文

【特别提示】本订阅号中所涉及的证券研究信息,均取自于光大证券已正式外发研究报告,由光大证券海外研究团队(TMT/消费/医药/制造等)编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究动态的宣传。研究报告有时效性,任何研究报告内容仅代表报告外发时特定时点的研究信息汇总,任何关于研究报告、研究观点的解读,请联系对口销售或具体研究员。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。


报告发布信息


报告标题:《Blackwell平台实现AI性能跃升,软硬协同助力英伟达转型AI全链条平台——英伟达GTC 2024大会点评》

报告发布日期:2024年3月21日

分析师:付天姿(执业证书编号:S0930517040002)

分析师:王贇(执业证书编号:S0930522120001)

联系人:董馨悦



往期回顾

【光大海外TMT】惠普、慧与、戴尔科技业绩表现不一,AI服务器需求强劲增长——AI算力产业链跟踪报告(八)

【光大海外】ARM:FY24Q3业绩和Q4指引超预期,强劲AI需求提供增长新动力——AI算力产业链跟踪报告(七)

【光大海外TMT】AMD:看好业绩24Q1触底后回升,公司上调24年数据中心GPU指引——AI算力产业链跟踪报告(六)

【光大海外TMT】英特尔:数据中心业务逆风致24Q1指引疲软,24全年有望修复——AI算力产业链跟踪报告(五)

【光大海外TMT】美股巨头财报季序幕拉开,印证AI算力产业链持续高景气——AI算力产业链跟踪报告(四)

【光大海外TMT】AI芯片助力台积电Q3盈利超预期,消费电子需求企稳展现复苏信号——AI算力产业链跟踪报告

要点


事件: 美国时间3月18日-3月21日期间,英伟达举行GTC 2024大会。其中美国时间3月18日下午1:00-3:00,英伟达CEO黄仁勋发表了《见证AI的变革时刻》的主题演讲,分享在芯片迭代、软件生态和机器人等应用上的进展。


Blackwell新架构:多芯片封装、Transformer 引擎和互联传输升级,助力单芯片性能和整体算力集群性能提升。 1)4NP制程+双芯片设计,将2颗GPU以10 TB/s通信速率融合成一颗芯片,晶体管数量由H100的800亿提升至2080亿,大幅提升单芯片处理能力;2)第二代Transformer引擎,使Blackwell具备在FP4精度的AI推理能力,能在将性能和效率翻倍的同时保持混合专家模型的高精度;3)互联传输方面,NVLink + NVLink Switch + X800系列交换机提升集群通信连接速率;4)内嵌解压引擎、RAS引擎和加密协议。


通信互联:推出第五代NVLink、NVLink Switch和X800系列交换机,增强大规模AI算力网络传输速度 。1)第五代NVLink:带宽突破1.8TB/s,相比第四代提升一倍;2)NVLink Switch:支持576颗GPU组成计算集群,上一代仅支持256颗GPU连接;3)X800系列交换机:成为全球首款具备端到端 800Gb/s 吞吐量的网络平台,相比上代产品带宽容量提高5倍,网络计算能力提高9倍。


英伟达推出B200 GPU、超级芯片、服务器到大型算力集群等全套算力硬件组合。 1)B200:搭载8颗HBM3e,内存容量达192GB,FP4精度下算力高达20 PFLOPS,预计2024年晚些时间上市;2)超级芯片GB200:2颗Blackwell GPU +1颗Grace CPU,FP4精度下算力高达40PFLOPS;3)超级计算机GB200 NVL72:72颗BlackwellGPU+36颗Grace CPU,训练和推理性能相比等同数量的H100 GPU表现提升4倍和30倍;4)DGX Super POD:一站式 AI 超算解决方案,搭载8套 DGX GB200 NVL72系统,有望成为未来重要基础设施。


软件工具链:NIM打通软硬件、降低客户软件开发难度,NeMo帮助企业采用专用数据开发定制大模型,英伟达将逐步转型成类苹果/微软的平台提供商。 1)NIM推理微服务:集成数十个企业级生成式AI模型,可提供从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路,帮助开发者在CUDA GPU上创建和部署生成式AI应用;2)NeMo Retriever:挖掘企业“数据金矿”价值,客户可以使用其他公司或英伟达提供的行业基础NeMo并添加自己的数据来生成专用大模型;3)NIM已在半导体、医药等多领域落地。


软件应用:英伟达拓展AI应用发展方向,积极在机器人和自动驾驶等领域开展合作。 1)机器人:英伟达看好AI+机器人领域前景,发布机器人基础大模型Project GR00T,推出Jetson Thor计算机、Isaac软件开发工具和库等,并与众多公司在机器人开发领域达成合作关系;2)自动驾驶:自动驾驶芯片采用Blackwell新架构,英伟达与比亚迪等车企加强合作。


硬件迭代+软件协同+拓展应用领域,我们看好AI算力产业链维持高景气度,建议关注: 1)英伟达:AI芯片性能强劲,软硬件协同服务打开想象空间;2)其他AI芯片:AMD、英特尔;3)服务器:超微电脑、联想集团、工业富联、戴尔科技、慧与;4)HBM:三星电子、SK海力士、美光科技;5)ASIC芯片设计:Marvell科技、博通;6)CoWoS:台积电、日月光、Amkor科技;7)CoWoS设备:ASMPT;8)云技术服务商:Oracle;9)光模块:中际旭创。


风险分析: 1)下游应用程序开发和场景拓展较慢,导致AI商业化进度不及预期;2)B200等新品产能扩张受限,数据中心业务出货量不及预期;3)若AIGC进展不及预期,大模型训练和推理的算力需求高速增长的可持续性或降低。



目录



正文

1

硬件:“AI核弹”Blackwell新架构发布,硬件设备全面升级



英伟达Blackwell新架构实现从GPU、互联通信、超级芯片到大型算力集群的全面性能提升。英伟达CEO黄仁勋将Blackwell架构称为“推动新一轮工业革命的引擎”,并定义其成为计算平台,一方面实现训练、推理性能、通信传输速度、能效的大幅提升,另一方面构建GPU、网络通信产品、AI超级芯片、服务器、大型算力集群、云服务等全套硬件产品,我们认为英伟达从芯片厂商走向了类“苹果”的平台之路。


1.1  Blackwell新架构:单芯片性能和整体算力集群性能提升明显

多芯片封装、Transformer引擎和互联传输升级,帮助Blackwell实现单芯片和整体算力集群的表现升级。时隔两年,英伟达发布全新Blackwell架构,相较于上一代Hopper架构的产品,Blackwell架构的芯片和相关硬件设备以提升单个芯片的性能为基础,同时加强了大规模AI算力集群的算力,全面提升AI大模型的加速效果。此次Blackwell架构有以下6个方面的技术突破:

(1)制程优化,首次采用双芯片设计: 采用定制的、双reticle的台积电4NP(4N工艺的改进版本)制程工艺,首次采用MCM(多芯片封装),将两个GPU裸片通过C2C以10 TB/s通信速率融合在一个芯片中,晶体管数量达到了2080亿。没有内存局部性问题或缓存问题,因此CUDA将其视为单块GPU,从而大幅度提高了处理能力。


(2)内嵌第二代Transformer Engine提升Transformer模型的加速效果: 第二代Transformer Engine 使用 Blackwell Tensor 核心 技术,将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度,提升了不同参数规模Transformer模型的加速效果。


(3)第5代NVLink技术和NVLink Switch提升集群通信连接速率: 第五代NVLink将GPU卡间连接速率提升到1.8TB/S,NVLink Switch支持与多个NVLink连接,可高速互联576颗GPU组成计算集群,为AI大模型高密度、大规模训练提供有力的AI算力支持。


(4)内嵌加密协议,保障数据安全: Blackwell芯片引入的原生界面加密协议包含NVIDIA机密运算,能以强大的硬件安全防护来保护敏感资料和AI模型,保障计算过程中的数据安全。


(5)配备解压引擎,为大数据处理和数据科学场景提供有力支持: Blackwell 配备解压引擎,运用900 GB/s的双向频宽,有效支持当前最新的数据格式的处理、查询和分析,实现资料分析与资料科学的最高效能。


(6)内嵌RAS引擎,保障AI训练的稳定性: Blackwell架构的芯片内嵌的RAS引擎可快速定位问题来源并实行有效的补救措施,尽可能减少停机时间,同时可自动预测、通过智能化预防措施处理在训练过程中可能出现的问题,从而保障长时间的AI训练。


1.2、 B200 GPU:基于Blackwell架构,实现算力增长、内存升级和网络传输加快

B200首次采用多芯片封装(MCM),实现算力增长、内存升级和网络传输加快。 作为NVIDIA Blackwell架构首款新产品,B200采用双芯片设计,两个芯片通过C2C连接成一个GPU,互联速度高达10TB/s;并采用台积电定制的4NP制程,晶体管数量达到2080亿,对比上一代Hopper架构的H100晶体管数量只有800亿(未采用双芯片设计)。B200预计2024年晚些时间上市。


1)双芯片设计+第二代Transformer引擎,助力算力大幅提升至2.5倍。使用定制的Blackwell Tensor核心技术,支持新的FP4、FP6精度计算加速AIGC推理和LLM,在FP4精度下,AI算力可实现20 PFLOPs,提升至H100 4PFLOPs的2.5倍;

2)搭配8颗HBM3e内存(Hopper架构的H200共计6颗),内存容量达到192GB;

3)采用第五代NVLink高速互联,带宽突破1.8 TB/s,相比Hopper架构和Ampere架构有了巨幅提升,最大可支持10万亿参数的模型的训练。



1.3、 通信互联:NVLink+NVLink Switch+X800系列交换机,增强大规模AI算力网络传输速度

第五代NVLink带宽突破1.8TB/s。 NVLink可在内存墙无法突破的情况下,最大化提升CPU和GPU之间通信的效率,于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用,当时的带宽为160GB/s,到H100采用的第四代NVLink,其带宽已经达到900GB/s,而B200采用的第五代NVLink带宽提升一倍、突破1.8TB/s。



最新NVLink Switch芯片支持576颗GPU组成计算集群。 NVLink Switch支持与多个NVLink连接,实现NVLink在单节点、节点之间互联,进而创建更高带宽的GPU算力集群,基于最新的NVLink Switch芯片(台积电4nm工艺,500亿个晶体管),可实现576颗GPU组成计算集群,上一代产品仅支持256颗GPU。




X800系列交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台。 英伟达还新发布了搭载64个800Gb/s端口、配备RoCE自适应路由的NVIDIA Quantum-X800 InfiniBand交换机,和搭载144个800Gb/s端口,网络内计算性能达到14.4TFLOPs的Spectrum-X800交换机。X800系列新交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台,与上一代产品相比,带宽容量提高了5倍,网络计算能力则凭借NVIDIA SHARPv4技术提高9倍。Quantum-X800 InfiniBand交换机和Spectrum-X800交换机面对客户群体略有差异:

1)Quantum-X800 InfiniBand:包含Nvidia Quantum Q3400交换机和Nvidia connectX-8 SuperNlc,适用于追求超大规模、高性能的客户;

2)Spectrum-X800以太网:包含Spectrum SN5600 800GB/S交换机和Nvidia BlueField-3 SuperNIC,适用于多租户、工作负载多样性,且需融入生成式AI应用的客户

X800系列交换机的首批采用者包括Microsoft Azure、Oracle Cloud Infrastructure(OCI)和Coreweave等,预计将于明年上市。


1.4、 单芯片和互联产品帮助打造大规模AI算力集群,实现性能跃升和能耗降低

英伟达从售卖单芯片转向售卖算力硬件系统,推出超级芯片GB200(2 GPU+1 CPU)、超级计算机GB200 NVL72(72 GPU+36 CPU)和DGX Super POD一站式AI超算解决方案(576 GPU+288 CPU)。


超级芯片GB200:新精度下算力大幅提升。 GB200是通过900GB/s 低功耗NVLink芯片间互连,将2颗Blackwell GPU + 4个die + 1颗ARM Grace CPU连接得到的超级芯片,具备16TB/s的HBM、3.6TB/s的显存带宽。计算性能上,在新的FP4精度下可达到40PFLOPs的AI算力,是上一代产品H200在FP8精度的5倍。


超级计算机GB200 NVL72:训练和推理性能跃升,能耗成本大幅下降。 英伟达在会上发布了通过第五代NVL互连的72颗Blackwell GPU、36颗Grace CPU以及BlueField-3 DPU组合而成的服务器GB200 NVL72,在新的FP4精度下推理算力高达1440 PFLOPs,FP8精度的训练算力高达720Pflops,传输量最大达到260TB/s,几乎相当于一个超级计算机集群。GB200 NVL72在训练和推理方面相比上一代均实现大幅提升:

1)训练性能高达GH100的4倍:2000颗GPU的GB200 NVL72加速卡可在90天内消耗4兆瓦电力训练1.8万亿参数的GPT-Moe,等同于使用8000颗GPU的GH100加速卡消耗15兆瓦电力训练90天的效果,训练性能高达GH100的4倍;

2)推理性能提升至30倍,成本与能耗降低25倍:与相同数量(72颗)H100相比,GB200 NVL72 对于LLM推理工作负载的性能提升高达30倍,并将成本和能耗降低高达25倍。


一站式AI超算解决方案DGX Super POD:打造大型AI算力集群,有望成为训练和推理的重要基础设施。 英伟达还推出了基于GB200的DGX Super Pod一站式AI超算解决方案,采用高效的一体式液冷机架,搭载8套DGX GB200 NVL72系统,即288颗Grace CPU和576颗Blackwell 200 GPU,内存达到240TB,FP4精度计算性能达到11.5ELOPs(每秒11.5百亿亿次),相比上一代产品的推理性能提升30倍,训练性能提升4倍。


2

软件:NIM帮助英伟达转型软硬件平台商,积极拓展AI+机器人等应用领域




英伟达CEO黄仁勋表示,Blackwell不仅是芯片架构,也是平台名称。英伟达在GTC 2024大会上,不仅推出全套硬件产品,也推出NIM、NeMo等软件开发工具,帮助客户在英伟达的软件生态中构建模型,致力于以软硬件的整体打包方案输出给客户。我们认为,英伟达正在逐渐转型成类似微软或苹果的平台提供商。


2.1、 工具链:NIM打通软硬件、降低客户软件开发难度,NeMo帮助企业采用专用数据开发定制大模型

2.1.1、NVIDIA NIM:集成生成式AI微服务,构建软硬件生态闭环

NIM集成了数十个企业级生成式AI模型,定位AI软件“晶圆厂”。 黄仁勋认为NIMs(Nvidia inference micro service)是未来开发软件的新形式,通过与AI聊天的形式调动NIMS中的微服务来完成训练、应用的部署。NIM中包括数十项企业生成式AI微服务,企业可以利用这些微服务在自己的平台上创建和部署定制应用,同时保留对知识产权的完整所有权和控制权。



NIM软件提供了从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路。 NIM包含了针对英伟达GPU高度优化的模型以及提高推理性能所需要的技术,让构成 GenAI 应用程序可以完成直达NVIDIA GPU的全链路优化:







请到「今天看啥」查看全文