专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

GTC 2025:黄仁勋拉开AI新纪元大幕

CDCC  · 公众号  ·  · 2025-03-21 12:16

正文

“独家前线报道!CDCC专家团队亲临GTC 2025大会现场,为您揭开这场科技盛会的神秘面纱。他们将以专业的洞察力和独到的见解,深入解读GTC 2025上的创新技术和未来趋势。 关注我们,跟随我们的专家一起探索科技前沿,洞悉行业动态,领略GTC 2025的非凡魅力!

AI 界 “超级碗” 来袭

在科技飞速发展的今天,人工智能(AI)领域的每一次重大突破都备受瞩目。而英伟达的GTC大会,堪称 AI 界的 “超级碗”,每一届都吸引着全球目光,汇聚前沿技术,带来行业震撼。

今年,英伟达创始人兼CEO黄仁勋再次以标志性的皮衣造型登场,为我们带来一场持续超两小时的技术盛宴,其中的重磅发布更是让整个科技圈为之沸腾。接下来,就让我们一同深入这场盛会,看看黄仁勋究竟带来了哪些令人惊叹的内容。
Blackwell Ultra GPU
在本次GTC大会上,英伟达推出的Blackwell Ultra芯片无疑是硬件领域的一大亮点。

Blackwell Ultra由两颗台积电N4P(隶属于5nm家族的4nm加强版)工艺Blackwell GPU+Grace CPU+更大容量的HBM封装而来,即搭配了更先进的12层堆叠的HBM3e,显存容量提升至为288GB,和上一代一样支持第五代NVLink,可实现1.8TB/s的片间互联带宽。
以数据中心的实际应用为例,Blackwell Ultra芯片的AI性能是前代的1.5倍,这意味着在处理复杂的AI模 型训练和推理任务时,能够更加高效地完成工作。同时,该芯片在能效方面也进行了优化, 全面改用液冷散热,硬刚1.4KW功耗
Blackwell Ultra芯片的推出,标志着AI计算焦点从大模型预训练向深度推理与复杂推理的转变,将为数据中心、企业AI工厂及自动驾驶、机器人等领域提供强劲的计算能力
然而,顶级配置的GB300服务器价格突破300万美元(约合人民币2000万)!不过,亚马逊、微软等云巨头已火速下单,毕竟AI军备竞赛里,“贵”是你的问题,不是他的问题。
Blackwell Ultra NVL72:AI推理专用机柜

和GB200 NVL72一样,英伟达今年也推出了类似的产品Blackwell Ultra NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU,显存达到20TB,总带宽576TB/s,外加9个NVLink交换机托盘(18颗NVLink 交换机芯片),节点间NVLink带宽130TB/s。
机柜内置72张CX-8网卡,提供14.4TB/s带宽,Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡则可以降低延迟和抖动,支持大规模AI集群。此外,机架还整合了18张用于增强多租户网络、安全性和数据加速BlueField-3 DPU。
英伟达说这款产品是“为AI推理时代”专门定制,应用场景包括推理型AI、Agent以及物理AI(用于机器人、智驾训练用的数据仿真合成),相比前一代产品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架构同定位的DGX机柜产品,可以为数据中心提供50倍增收的机会。
根据官方提供的信息,6710亿参数DeepSeek-R1的推理,基于H100产品可实现每秒100tokens,而采用Blackwell Ultra NVL72方案,可以达到每秒1000 tokens。
换算成时间,同样的推理任务,H100需要跑1.5分钟,而Blackwell Ultra NVL72 15秒即可跑完。
图片
Blackwell Ultra NVL72和GB200 NVL72硬件参数

Vera Rubin

继Blackwell之后,Nvidia计划将于2026年下半年推出Vera Rubin(包含Vera Arm CPU + Rubin GPU) ,2027年下半年推出Rubin Ultra NVL576,2028年推出搭配Feynman GPU架构的产品。

Vera是Nvidia的首款定制CPU设计。Nvidia表示,Vera将比去年的Grace Blackwell芯片中使用的CPU快两倍。与Vera搭配使用,Rubin可以在进行推理时实现每秒50 petaflops,比目前Blackwell芯片每秒20 petaflops的速度高出一倍多。Rubin还可以支持高达 288GB HBM4内存。

Nvidia还对其GPU进行了更改。Nvidia表示,Rubin实际上是两个GPU。2027年下半年,Nvidia计划发布一款“Rubin Next”芯片,该芯片将四个芯片组合成一个芯片,使Rubin的速度翻倍。这款产品将搭载在一款名为Vera Rubin NVL144的机架上。NVIDIA在谈论 NVLink域时计算的是GPU裸片,而不是单个GPU芯片。因此NVL144是144个裸片,而不是144个芯片。

Rubin Ultra NVL576每机架600KW,FP4峰值推理算力高达15 EFLOPS,FP8训练算力达到5EFLOPS。每个GPU封装1TB HBM4e内存。Nvidia称其性能是今年推出的 Blackwell Ultra机架的14倍。

RTX PRO Blackwell 系列
英伟达还发布了RTX PRO Blackwell系列工作站和服务器GPU,这一系 列产品通过突破性的加速计算、AI 推理、光线追踪和神经渲染技术,重新定义了AI、技术、创意、工程和设计专业人士的工作流。
其中,旗舰级的RTX PRO 6000系列拥有24,064个CUDA核心、752个Tensor核心188个RT核心。

RTX PRO 6000全系均配备96GB GDDR7显存(支持 ECC 校验),具备512 bit显存位宽,这意味着GPU板正反两面都使用了3GB GDDR7显存模块。

英伟达共发布12款同架构产品,包含双风扇设计(最高 600W TDP)的工作站版、涡轮鼓风式设计的集群工作站版,以及服务器专用版。

数据中心

  • NVIDIA RTX PRO 6000 Blackwell 服务器版


桌面平台

  • NVIDIA RTX PRO 6000 Blackwell 工作站版

  • NVIDIA RTX PRO 6000 Blackwell Max-Q 工作站版

  • NVIDIA RTX PRO 5000 Blackwell

  • NVIDIA RTX PRO 4500 Blackwell

  • NVIDIA RTX PRO 4000 Blackwell


移动平台

  • NVIDIA RTX PRO 5000 Blackwell

  • NVIDIA RTX PRO 4000 Blackwell

  • NVIDIA RTX PRO 3000 Blackwell

  • NVIDIA RTX PRO 2000 Blackwell

  • NVIDIA RTX PRO 1000 Blackwell

  • NVIDIA RTX PRO 500 Blackwell

在AI领域,该系列GPU能够加速AI模型的训练和推理过程,使得研究人员能够更快地验证和优化模型,推动AI技术的发展。
DGX Spark 和 DGX Station
为了让AI开发更加普及,英伟达发布了由NVIDIA Grace Blackwell平台驱动的DGX Spark和DGX Station个人AI超级计算机。
DGX Spark体积小巧,尺寸类似Mac Mini,采用标准电源供电,起售价仅为3000美元,大大降低了AI开发的门槛。它搭载了新一代NVIDIA Blackwell Ultra平台,在FP4计算精度下可提供1 PFLOPS的AI性能,支持本地运行高达2000亿参数的 AI 模型。若将两台设备互联,更可扩展至4050亿参数模型的训练与推理。
DGX Station则是一款面向更广泛领域的大型桌面级AI计算中心,内部搭载强大GB300 Blackwell Ultra、784GB统一系统内存、内置800Gbps Nvidia网络,以及承诺的20 petaflops AI性能,据称将由华硕、戴尔、惠普等公司生产。

NVIDIA Isaac GR00T N1

英伟达宣布与DeepMind、迪士尼合作,开发机器人模拟的开源物理引擎Newton,并展示了搭载GR00T N1的人形机器人“Blue”。







请到「今天看啥」查看全文