专栏名称: 经纬创投
经纬创投公众平台,创享汇,新闻发布官方平台
目录
相关文章推荐
创伙伴  ·  欢迎你也加入创伙伴知识星球 ·  2 天前  
创伙伴  ·  欢迎你也加入创伙伴知识星球 ·  3 天前  
51好读  ›  专栏  ›  经纬创投

一文读懂英伟达GTC:有关Blackwell全家桶、硅光芯片和黄仁勋的“新故事”

经纬创投  · 公众号  · 科技投资  · 2025-03-19 07:39

主要观点总结

英伟达在GTC大会上发布了Blackwell Ultra GPU及其衍生的“全家桶”产品,包括具身智能基础模型Cosmos和Llama Nemotron模型等。黄仁勋强调了算力在AI时代的重要性,并展示了英伟达的软硬件结合策略,包括Dynamo软件、Omniverse数据生成等。此外,英伟达还推出了针对AI Agent和机器人领域的解决方案,如NVIDA AIQ项目和人形机器人基础模型Isaac GR00T N1。总的来说,英伟达在AI领域的布局已经涵盖了从训练到部署的全方位解决方案。

关键观点总结

关键观点1: 英伟达发布了Blackwell Ultra GPU及其相关产品线,强化了其在AI领域的地位。

英伟达在GTC大会上展示了其全新的Blackwell Ultra GPU以及一系列相关产品线,包括针对不同场景的SKU和基于Blackwell架构的RTX全家桶等。这些产品不仅在硬件性能上实现了巨大飞跃,更在推理速度和数据中心效率上带来了质的提升。

关键观点2: 英伟达在软件生态方面取得了重要进展,推出了Dynamo软件和Omniverse数据生成平台。

为了进一步提升AI应用的效率和性能,英伟达推出了专为推理、训练和跨整个数据中心加速而构建的开源软件Dynamo。此外,Omniverse数据生成平台能够结合NVIDIA Cosmos Transfer世界基础模型,生成大量合成数据,为机器人操作训练提供丰富的数据资源。

关键观点3: 英伟达在AI Agent和机器人领域推出了多项创新解决方案。

英伟达通过NVIDA AIQ项目和人形机器人基础模型Isaac GR00T N1等解决方案,进一步拓展了其在AI Agent和机器人领域的应用。这些解决方案提供了从模型优化、应用构建到机器人操作等全方位的支持,展示了英伟达在AI领域的全面布局。

关键观点4: 黄仁勋强调了算力在AI时代的重要性,并展示了英伟达的全方位算力体系。

黄仁勋在GTC大会上强调了算力在AI时代的重要性,并展示了英伟达的“三台计算机”概念,包括用于训练的DGX、用于端侧部署的AGX以及用于数据生成的Omniverse和Cosmos。这些组成部分共同构成了英伟达的全方位算力体系,为AI应用提供了从训练到部署的全方位支持。


正文

构建一个虚拟的“平行宇宙”需要多少算力?英伟达:过去的100倍。


在2025年3月19日的英伟达GTC大会上,CEO黄仁勋再次为全球科技界带来了一场算力与创新的盛宴。


本次大会的核心亮点是英伟达全新推出的Blackwell Ultra GPU及其衍生的“全家桶”产品,包括专为AI推理设计的服务器机柜Blackwell Ultra NVL72,以及面向生成式AI和物理模拟的DGX Super POD超算工厂等。这些产品不仅在硬件性能上实现了巨大飞跃,更在推理速度和数据中心效率上带来了质的提升。黄仁勋强调,随着AI技术的飞速发展,算力需求已暴增百倍,而英伟达的使命就是通过不断的技术创新,满足这一需求。


除了硬件的升级,英伟达在软件生态和具身智能领域也展开了全面布局。Nvidia Dynamo作为一款专为推理优化的开源软件,能够显著提升现有模型的性能,而Llama Nemotron模型则展示了英伟达在高效训练和推理方面的最新成果。


此外,英伟达还发布了具身智能基础模型Cosmos和人形机器人基础模型Isaac GR00T N1,标志着其在AI领域的版图进一步拓展至机器人和智能体领域。通过这些软硬件的结合,英伟达不仅巩固了其在AI算力领域的领先地位,更向构建一个完整的AI生态系统迈出了关键一步。 以下,Enjoy:


腾讯科技特约作者 苏扬、郝博阳

编辑 郑可君

作为AI时代的“卖铲人”,黄仁勋和他的英伟达,始终坚信算力永不眠。

今天的GTC大会上,黄仁勋拿出了全新的Blackwell Ultra GPU,以及在此基础上衍生的应用于推理、Agent的服务器SKU,也包括基于Blackwell架构的RTX全家桶,这一切都与算力有关,但接下来更重要的是,如何将源源不断算力,合理有效地消耗掉。

在黄仁勋眼里,通往AGI需要算力,具身智能机器人需要算力,构建Omniverse与世界模型更需要源源不断的算力,至于最终人类构建一个虚拟的“平行宇宙”,需要多少算力,英伟达给了一个答案——过去的100倍。

为了支撑自己的观点,黄仁勋在GTC现场晒了一组数据——2024年美国前四云厂总计采购130万颗Hopper架构芯片,到了2025年,这一数据飙升至360万颗Blackwell GPU。

以下是腾讯科技整理的英伟达GTC 2025大会的一些核心要点:

1

Blackwell全家桶上线


1)年度“核弹”Blackwell Ultra在挤牙膏

英伟达去年GTC发布Blackwell架构,并推出GB200芯片,今年的正式名称做了微调,不叫之前传言的GB300,直接就称之为Blakwell Ultra。

但从硬件来看,就是在去年基础上更换了新的HBM内存。一句话理解就是,Blackwell Ultra= Blackwell大内存版本。

Blackwell Ultra由两颗台积电N4P(5nm)工艺,Blackwell 架构芯片+Grace CPU封装而来,并且搭配了更先进的12层堆叠的HBM3e内存,显存提升至为288GB,和上一代一样支持第五代NVLink,可实现1.8TB/s的片间互联带宽。

图片
NVLink历代性能参数

基于存储的升级,Blackwell GPU的FP4精度算力可以达到15PetaFLOPS,基于Attention Acceleration机制的推理速度,比Hopper架构芯片提升2.5倍。

2)Blackwell Ultra NVL72:AI推理专用机柜


图片
Blackwell Ultra NVL72官方图

和GB200 NVL72一样,英伟达今年也推出了类似的产品Blackwell Ultra NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU,显存达到20TB,总带宽576TB/s,外加9个NVLink交换机托盘(18颗NVLink 交换机芯片),节点间NVLink带宽130TB/s。

机柜内置72张CX-8网卡,提供14.4TB/s带宽,Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡则可以降低延迟和抖动,支持大规模AI集群。此外,机架还整合了18张用于增强多租户网络、安全性和数据加速BlueField-3 DPU。

英伟达说这款产品是“为AI推理时代”专门定制,应用场景包括推理型AI、Agent以及物理AI(用于机器人、智驾训练用的数据仿真合成),相比前一代产品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架构同定位的DGX机柜产品,可以为数据中心提供50倍增收的机会。

根据官方提供的信息,6710亿参数DeepSeek-R1的推理,基于H100产品可实现每秒100tokens,而采用Blackwell Ultra NVL72方案,可以达到每秒1000 tokens。

换算成时间,同样的推理任务,H100需要跑1.5分钟,而Blackwell Ultra NVL72 15秒即可跑完。

图片
Blackwell Ultra NVL72和GB200 NVL72硬件参数

根据英伟达提供的信息,Blackwell NVL72相关产品预计在2025年下半年上市,客户包括服务器厂商、云厂、算力租赁服务商几大类:

  • 服务器厂商
    Cisco/Dell/HPE/Lenovo/超微等15家制造商
  • 云厂
    AWS/Google Cloud/Azure/Oracle云等主流平台
  • 算力租赁服务商
    CoreWeave/Lambda/Yotta等

3)提前预告真“核弹”GPU Rubin芯片


按照英伟达的路线图,GTC2025的主场就是Blackwell Ultra。

不过,黄仁勋也借这个场子预告了2026年上市的基于Rubin架构的下一代GPU以及更强的机柜Vera Rubin NVL144——72颗Vera CPU+144颗 Rubin GPU,采用288GB显存的HBM4芯片,显存带宽13TB/s,搭配第六代NVLink和CX9网卡。

这个产品有多强呢?FP4精度的推理算力达到了3.6ExaFLOPS,FP8精度的训练算力也达到了1.2ExaFlOPS,性能是Blackwell Ultra NVL72的3.3倍。

如果你觉得还不够,没关系,2027年还有更强的 Rubin Ultra NVL576机柜,FP4精度的推理和FP8精度的训练算力分别是15ExaFLOPS和5ExaFLOPS,14倍于Blackwell Ultra NVL72。

图片
英伟达官方提供的Rubin Ultra NVL144和Rubin Ultra NVL576参数

4)Blackwell Ultra版DGX Super POD“超算工厂“


对于那些现阶段Blackwell Ultra NVL72都不能满足需求,又不需要搭建超大规模AI集群的客户,英伟达的解决方案是基于Blackwell Ultra、即插即用的DGX Super POD AI超算工厂。

作为一个即插即用的AI超算工厂,DGX Super POD主要面向专为生成式AI、AI Agent和物理模拟等AI场景,覆盖从预训练、后训练到生产环境的全流程算力扩展需求,Equinix作为首个服务商,提供液冷/风冷基础架构支持。

图片
由Blackwell Ultra构建的DGX SuperPod

基于Blackwell Ultra定制的DGX Super POD分两个版本:

  • 内置DGX GB300(Grace CPU ×1+Blackwell Ultra GPU ×2) 的DGX SuperPOD,总计288颗Grace CPU+576颗 Blackwell Ultra GPU,提供300TB的快速内存,FP4精度下算力为11.5ExaFLOPS
  • 内置DGX B300的DGX SuperPOD,这个版本不含Grace CPU芯片,具备进一步的扩展空间,且采用的是风冷系统,主要应用场景为普通的企业级数据中心

5)DGX Spark与DGX Station


今年1月份,英伟达在CES上晒了一款售价3000美元的概念性的AI PC产品——Project DIGITS,现在它有了正式名称DGX Spark。

产品参数方面,搭载GB10芯片,FP4精度下算力可以达到1PetaFlops,内置128GB LPDDR5X 内存,CX-7网卡,4TB NVMe存储,运行基于Linux定制的DGX OS操作系统,支持Pytorch等框架,且预装了英伟达提供的一些基础AI软件开发工具,可以运行2000亿参数模型。整机的尺寸和Mac mini的大小接近,两台DGX Spark互联,还可以运行超过4000亿参数的模型。

虽然我们说它是AI PC,但本质上仍然属于超算范畴,所以被放在了DGX产品系列当中,而不是RTX这样的消费级产品里面。

不过也有人吐槽这款产品,FP4的宣传性能可用性低,换算到FP16精度下只能跟RTX 5070,甚至是250美元的Arc B580对标,因此性价比极低。

图片
DGX Spark计算机与DGX Station工作站

除了拥有正式名称的DGX Spark,英伟达还推出了一款基于Blackwell Ultra的AI工作站,这个工作站内置一颗Grace CPU和一颗Blackwell Ultra GPU,搭配784GB的统一内存、CX-8网卡,提供20PetaFlops的AI算力(官方未标记,理论上也是FP4精度)。

6)RTX横扫AI PC,还要挤进数据中心


前面介绍的都是基于Grace CPU和Blackwell Ultra GPU的产品SKU,且都是企业级产品,考虑到很多人对RTX 4090这类产品在AI推理上的妙用,英伟达本次GTC也进一步强化了Blackwell和RTX系列的整合,推出了一大波内置GDDR7内存的AI PC相关GPU,覆盖笔记本、桌面甚至是数据中心等场景。

  • 桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell
  • 笔记本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell
  • 数据中心 GPU:NVIDIA RTX PRO 6000 Blackwell服务器版

图片
英伟达针对企业级计算打造的AI“全家桶”

以上还只是部分基于Blackwell Ultra芯片针对不同场景定制的SKU,小到工作站,大到数据中心集群,英伟达自己将其称之为“Blackwell Family”(Blackwell家族),中文翻译过来“Blackwell全家桶”再合适不过。

2

英伟达Photonics

站在队友肩膀上的CPO系统


光电共封模块(CPO)的概念,简单来说就是将交换机芯片和光学模块共同封装,可实现光信号转化为电信号,充分利用光信号的传输性能。

在此之前,业界就一直在讨论英伟达的CPO网络交换机产品,但一直迟迟未上线,黄仁勋在现场也给了解释——由于在数据中心中大量使用光纤连接,光学网络的功耗相当于计算资源的10%,光连接的成本直接影响着计算节点的Scale-Out网络和AI性能密度提升。

图片

今年的GTC英伟达一次性推出了Quantum-X硅光共封芯片、Spectrum-X硅光共封芯片以及衍生出来的三款交换机产品:Quantum 3450-LD、Spectrum SN6810和Spectrum SN6800。

  • Quantum 3450-LD:144个800GB/s端口,背板带宽115TB/s,液冷
  • Spectrum SN6810:128个800GB/s端口,背板带宽102.4TB/s,液冷
  • Spectrum SN6800:512个800GB/s端口,背板带宽409.6TB/s,液冷

上述产品统一归类到“NVIDIA Photonics”,英伟达说这是一个基于CPO合作伙伴生态共创研发的平台,例如其搭载的微环调制器(MRM)是基于台积电的光引擎优化而来,支持高功率、高能效激光调制,并且采用可拆卸光纤连接器。

比较有意思的是,根据之前业内的资料,台积电的微环调制器(MRM)是其与博通基于3nm工艺以及CoWoS等先进封装技术打造而来。

按照英伟达给的数据,整合光模块的Photonics交换机相比传统交换机,性能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的扩展弹性。

3

模型效率PK DeepSeek

软件生态发力AI Agent


图片

因为本次长达2个小时的GTC上,黄仁勋总共只讲大概半个小时软件和具身智能。因此很多细节都是通过官方文档进行补充的,而非完全来自现场。

1)Nvidia Dynamo,英伟达在推理领域构建的新CUDA


Nvidia Dynamo绝对是本场发布的软件王炸。

它是一个专为推理、训练和跨整个数据中心加速而构建的开源软件。Dynamo的性能数据相当震撼:在现有Hopper架构上,Dynamo可让标准Llama模型性能翻倍。而对于DeepSeek等专门的推理模型,NVIDIA Dynamo的智能推理优化还能将每个GPU生成的token数量提升30倍以上。

图片
黄仁勋演示加了Dynamo的Blackwell能超过25倍的Hopper

Dynamo的这些改进主要得益于分布化。它将LLM的不同计算阶段(理解用户查询和生成最佳响应)分配到不同GPU,使每个阶段都能独立优化,提高吞吐量并加快响应速度。

图片






请到「今天看啥」查看全文