“独家前线报道!CDCC专家团队亲临GTC 2025大会现场,为您揭开这场科技盛会的神秘面纱。他们将以专业的洞察力和独到的见解,深入解读GTC 2025上的创新技术和未来趋势。
关注我们,跟随我们的专家一起探索科技前沿,洞悉行业动态,领略GTC 2025的非凡魅力!
AI 界 “超级碗” 来袭
在科技飞速发展的今天,人工智能(AI)领域的每一次重大突破都备受瞩目。而英伟达的GTC大会,堪称 AI 界的 “超级碗”,每一届都吸引着全球目光,汇聚前沿技术,带来行业震撼。
今年,英伟达创始人兼CEO黄仁勋再次以标志性的皮衣造型登场,为我们带来一场持续超两小时的技术盛宴,其中的重磅发布更是让整个科技圈为之沸腾。接下来,就让我们一同深入这场盛会,看看黄仁勋究竟带来了哪些令人惊叹的内容。
在本次GTC大会上,英伟达推出的Blackwell Ultra芯片无疑是硬件领域的一大亮点。
Blackwell Ultra由两颗台积电N4P(隶属于5nm家族的4nm加强版)工艺Blackwell GPU+Grace CPU+更大容量的HBM封装而来,即搭配了更先进的12层堆叠的HBM3e,显存容量提升至为288GB,和上一代一样支持第五代NVLink,可实现1.8TB/s的片间互联带宽。
以数据中心的实际应用为例,Blackwell Ultra芯片的AI性能是前代的1.5倍,这意味着在处理复杂的AI模
型训练和推理任务时,能够更加高效地完成工作。同时,该芯片在能效方面也进行了优化,
全面改用液冷散热,硬刚1.4KW功耗
。
Blackwell Ultra芯片的推出,标志着AI计算焦点从大模型预训练向深度推理与复杂推理的转变,将为数据中心、企业AI工厂及自动驾驶、机器人等领域提供强劲的计算能力
然而,顶级配置的GB300服务器价格突破300万美元(约合人民币2000万)!不过,亚马逊、微软等云巨头已火速下单,毕竟AI军备竞赛里,“贵”是你的问题,不是他的问题。
Blackwell Ultra NVL72:AI推理专用机柜
和GB200 NVL72一样,英伟达今年也推出了类似的产品Blackwell Ultra NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU,显存达到20TB,总带宽576TB/s,外加9个NVLink交换机托盘(18颗NVLink 交换机芯片),节点间NVLink带宽130TB/s。
机柜内置72张CX-8网卡,提供14.4TB/s带宽,Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡则可以降低延迟和抖动,支持大规模AI集群。此外,机架还整合了18张用于增强多租户网络、安全性和数据加速BlueField-3 DPU。
英伟达说这款产品是“为AI推理时代”专门定制,应用场景包括推理型AI、Agent以及物理AI(用于机器人、智驾训练用的数据仿真合成),相比前一代产品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架构同定位的DGX机柜产品,可以为数据中心提供50倍增收的机会。
根据官方提供的信息,6710亿参数DeepSeek-R1的推理,基于H100产品可实现每秒100tokens,而采用Blackwell Ultra NVL72方案,可以达到每秒1000 tokens。
换算成时间,同样的推理任务,H100需要跑1.5分钟,而Blackwell Ultra NVL72 15秒即可跑完。
Blackwell Ultra NVL72和GB200 NVL72硬件参数
Vera Rubin
继Blackwell之后,Nvidia计划将于2026年下半年推出Vera Rubin(包含Vera Arm CPU + Rubin GPU) ,2027年下半年推出Rubin Ultra NVL576,2028年推出搭配Feynman GPU架构的产品。
Vera是Nvidia的首款定制CPU设计。Nvidia表示,Vera将比去年的Grace Blackwell芯片中使用的CPU快两倍。与Vera搭配使用,Rubin可以在进行推理时实现每秒50 petaflops,比目前Blackwell芯片每秒20 petaflops的速度高出一倍多。Rubin还可以支持高达 288GB HBM4内存。
Nvidia还对其GPU进行了更改。Nvidia表示,Rubin实际上是两个GPU。2027年下半年,Nvidia计划发布一款“Rubin Next”芯片,该芯片将四个芯片组合成一个芯片,使Rubin的速度翻倍。这款产品将搭载在一款名为Vera Rubin NVL144的机架上。NVIDIA在谈论 NVLink域时计算的是GPU裸片,而不是单个GPU芯片。因此NVL144是144个裸片,而不是144个芯片。
Rubin Ultra NVL576每机架600KW,FP4峰值推理算力高达15 EFLOPS,FP8训练算力达到5EFLOPS。每个GPU封装1TB HBM4e内存。Nvidia称其性能是今年推出的 Blackwell Ultra机架的14倍。
英伟达还发布了RTX PRO Blackwell系列工作站和服务器GPU,这一系
列产品通过突破性的加速计算、AI 推理、光线追踪和神经渲染技术,重新定义了AI、技术、创意、工程和设计专业人士的工作流。
其中,旗舰级的RTX PRO 6000系列拥有24,064个CUDA核心、752个Tensor核心188个RT核心。
RTX PRO 6000全系均配备96GB GDDR7显存(支持 ECC 校验),具备512 bit显存位宽,这意味着GPU板正反两面都使用了3GB GDDR7显存模块。
英伟达共发布12款同架构产品,包含双风扇设计(最高 600W TDP)的工作站版、涡轮鼓风式设计的集群工作站版,以及服务器专用版。
数据中心
桌面平台
-
NVIDIA RTX PRO 6000 Blackwell 工作站版
-
NVIDIA RTX PRO 6000 Blackwell Max-Q 工作站版
-
NVIDIA RTX PRO 5000 Blackwell
-
NVIDIA RTX PRO 4500 Blackwell
-
NVIDIA RTX PRO 4000 Blackwell
移动平台
-
NVIDIA RTX PRO 5000 Blackwell
-
NVIDIA RTX PRO 4000 Blackwell
-
NVIDIA RTX PRO 3000 Blackwell
-
NVIDIA RTX PRO 2000 Blackwell
-
NVIDIA RTX PRO 1000 Blackwell
-
NVIDIA RTX PRO 500 Blackwell
在AI领域,该系列GPU能够加速AI模型的训练和推理过程,使得研究人员能够更快地验证和优化模型,推动AI技术的发展。
为了让AI开发更加普及,英伟达发布了由NVIDIA Grace Blackwell平台驱动的DGX Spark和DGX Station个人AI超级计算机。
DGX Spark体积小巧,尺寸类似Mac Mini,采用标准电源供电,起售价仅为3000美元,大大降低了AI开发的门槛。它搭载了新一代NVIDIA Blackwell Ultra平台,在FP4计算精度下可提供1 PFLOPS的AI性能,支持本地运行高达2000亿参数的 AI 模型。若将两台设备互联,更可扩展至4050亿参数模型的训练与推理。
DGX Station则是一款面向更广泛领域的大型桌面级AI计算中心,内部搭载强大GB300 Blackwell Ultra、784GB统一系统内存、内置800Gbps Nvidia网络,以及承诺的20 petaflops AI性能,据称将由华硕、戴尔、惠普等公司生产。
NVIDIA Isaac GR00T N1
英伟达宣布与DeepMind、迪士尼合作,开发机器人模拟的开源物理引擎Newton,并展示了搭载GR00T N1的人形机器人“Blue”。