专栏名称: 爱范儿
关注这个时代最好的产品。
目录
51好读  ›  专栏  ›  爱范儿

不止核弹芯片,黄仁勋发布两台 AI 个人超算,还拿下全球最快 DeepSeek 推理速度

爱范儿  · 公众号  · 科技媒体  · 2025-03-19 07:01

正文

买得越多
省得越多


英伟达 GTC 大会已经成了 AI 界超级碗,没有剧本也没有提词器,中途黄仁勋被线缆卡住,反而是这场高浓度 AI 发布会里最有人味的片段,在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。
刚刚,黄仁勋再次发布了全新一代核弹级 AI 芯片,不过这场发布会的还有个隐藏主角——DeepSeek。
由于智能体 AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的 100 倍。
推理成本效率给 AI 行业带来影响,而不是简单地堆积计算能力,成为贯穿这场发布会的主线。英伟达要变成 AI 工厂,让 AI 以超越人类的速度学习和推理。
推理本质上是一座工厂在生产 token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。
黄仁勋掏出的英伟达新「核弹」也在告诉我们,未来的人工智能竞争不在于谁的模型更大,而在于谁的模型具有最低的推理成本和更高推理的效率。
除了全新 Blackwell 芯片,还有两款「真·AI PC」
全新的 Blackwell 芯片代号为「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最强 AI 芯片」B200,再一次实现性能上的突破.
Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案,以及英伟达 HGX B300 NVL16 系统。
Blackwell Ultra GB300 NVL72 将于今年下半年发布,参数细节如下:

1.1 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 1.1 ExaFLOPS(每秒百亿亿次浮点运算)。

0.36 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。

1.5X GB300 NVL72:与 GB200 NVL72 相比,性能为 1.5 倍。

20 TB HBM3:配备了 20TB HBM 内存,是前代的 1.5 倍

40 TB Fast Memory:拥有 40TB 的快速内存,是前代的 1.5 倍。

14.4 TB/s CX8:支持 CX8,带宽为 14.4 TB/s,是前代的 2 倍。
单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops(每秒千万亿次浮点运算) AI 性能,但配备更多的 288GB 的 HBM3e 内存。
如果说 H100 更适合大规模模型训练,B200 在推理任务中表现出色,那么 B300 则是一个多功能平台,预训练、后训练和 AI 推理都不在话下。
英伟达还特别指出,Blackwell Ultra 也适用于 AI 智能体,以及用于训练机器人和汽车自动驾驶的「物理 AI」。
为了进一步增强系统性能,Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成,为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量,帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。
除了 NVL72 机架,英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外,这个主机还将配备 784GB 的同一系统内存,内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络,能够支持 20 petaflops 的 AI 性能。
而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark,搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片,每秒可提供高达 1000 万亿次 AI 计算操作,用于最新 AI 推理模型的微调和推理,包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。
黄仁勋表示,借助 DGX Station 和 DGX Spark,用户可以在本地运行大模型,或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。
这是 AI 时代的计算机。
DGX Spark 系统现已开放预订,而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。
下一代 AI 芯片 Rubin 官宣,2026 年下半年推出
英伟达一直以科学家的名字为其架构命名,这种命名方式已成为英伟达文化的一部分。这一次,英伟达延续了这一惯例,将下一代 AI 芯片平台命名为「Vera Rubin」,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)。
黄仁勋表示,Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现了 68 倍的提升。
其中,Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版:

3.6 EF FP4 Inference:在进行 FP4 精度的推理任务时,能够达到 3.6 ExaFLOPS(每秒百亿亿次浮点运算)。

1.2 EF FP8 Training:在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。

3.3X GB300 NVL72:与 GB300 NVL72 相比,性能提升了 3.3 倍。

13 TB/s HBM4:配备了 HBM4,带宽为 13TB/s。

75 TB Fast Memory:拥有 75 TB 的快速内存,是前代的 1.6 倍。

260 TB/s NVLink6:支持 NVLink 6,带宽为 260 TB/s,是前代的 2 倍。

28.8 TB/s CX9:支持 CX9,带宽为 28.8 TB/s,是前代的 2 倍。
标准版 Rubin 将配备 HBM4,性能比当前的 Hopper H100 芯片大幅提升。
Rubin 引入名为 Grace CPU 的继任者——Veru,包含 88 个定制的 Arm 核心,每个核心支持 176 个线程,并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。
英伟达表示,定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。
与 Vera CPU 搭配时,Rubin 在推理任务中的算力可达 50 petaflops,是 Blackwell 20 petaflops 的两倍以上。此外,Rubin 还支持高达 288GB 的 HBM4 内存,这也是 AI 开发者关注的核心规格之一。
实际上,Rubin 由两个 GPU 组成,而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。
从 Rubin 开始,英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU,而是更准确地按照实际的 GPU芯 片裸片数量来计数。
互联技术也升级了,Rubin 配备第六代 NVLink,以及支持 1600 Gb/s 的 CX9 网卡,能够加速数据传输并提升连接性。
除了标准版 Rubin,英伟达还计划推出 Rubin Ultra 版本。
Rubin Ultra NVL576 则将于 2027 年下半年推出。参数细节如下:

15 EF FP4 Inference:在 FP4 精度下进行推理任务时,性能达到 15 ExaFLOPS。

5 EF FP8 Training:在 FP8 精度下进行训练任务时,性能为 5 ExaFLOPS。

14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。

4.6 PB/s HBM4e:配备 HBM4e 内存,带宽为 4.6 PB/s。

365 TB Fast Memory:系统拥有 365 TB 的快速内存,是前代的 8 倍。

1.5 PB/s NVLink7:支持 NVLink 7,带宽为 1.5 PB/s,是前代的 12 倍。

115.2 TB/s CX9:支持 CX9,带宽为 115.2 TB/s,是前代的 8 倍。
在硬件配置上,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。
而 GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,并配备 1TB 的 HBM4e 内存,在性能和内存容量上都达到了新的高度。
为了在瞬息万变的市场竞争中站稳脚跟,英伟达的产品发布节奏已经缩短至一年一更。发布会上,老黄也正式揭晓下一代 AI 芯片的命名—— 物理学家费曼(Feynman)。
随着 AI 工厂的规模不断扩大,网络基础设施的重要性愈发凸显。
为此,英伟达推出了 Spectrum-X™ 和 Quantum-X 硅光网络交换机,旨在帮助 AI 工厂实现跨站点连接数百万 GPU,同时显著降低能耗和运营成本。
Spectrum-X Photonics 交换机具有多种配置,包括:






请到「今天看啥」查看全文