【新智元导读】
万众瞩目
的Blackwell Ultra终于登场亮相,专为DeepSeek R1这样的推理模型打造,性能直达Hoper的40倍!
而下一代GPU「Rubin」,将于2026年下半年问世。
这次,老黄的金句直接升级为「买得越多,赚得越多」。
全世界都错了,Scaling Law并没有撞墙!
更令人瞩目的是,DeepSeek R1推动的推理时Scaling,让Scaling Law出现了全新的发展路线。
刚刚在圣何塞结束的GTC大会上,老黄声称没有脚本、没有提词器,用两个多小时向我们介绍了英伟达过去一年的进展。
老黄表示,如果说从前的GTC说AI的伍德斯托克音乐节,那今年搬进体育场的GTC就是AI的超级碗,而唯一不同的说,每个人都是超级碗的赢家。
全场精彩亮点如下:
-
Blackwell已全面投产,而且进展非常快,客户需求也非常大。这一切皆是因为AI拐点已至,训练推理AI/智能体系统对计算量的需求大大增加。
-
Blackwell NVL72结合Dynamo推理性能提升了40倍,相当于一座Hopper AI工厂的性能。
-
英伟达未来三年路线图已公开,GPU每年一更:Blackwell Ultra预计2025年下半年上市,下一代Rubin 2026年问世。
-
英伟达正在构建3个AI
基础设施:云上AI基础设施,企业AI基础设施和机器人AI基础设施。
英伟达预言:在未来,每个拥有工厂的公司将来都会有两个工厂,一个是用来制造产品的实体工厂,另一个是用于数学运算的AI工厂。为此,各类CUDA-X软件库已经准备好,引爆全行业的变革。
而这场革命的背后,就是英伟达的CUDA核心,以及为之配备的惊人算力。
随着Blackwell GPU的全面发货,老黄也按照惯例发布了接下来几款新产品的路线图。
首先,是对训练和测试时推理能力进行大幅提升,并将在今年下半年问世的Blackwell Ultra。
根据英伟达官方博客介绍,Blackwell已经让DeepSeek-R1打破了推理性能的世界纪录。
而与Blackwell相比,Blackwell Ultra芯片还有超强进化!
它的显存从192GB提升到了288GB。而GB300 NVL72的AI性能,则比NVIDIA GB200 NVL72高出1.5倍。
接下来,是最为重磅的Vera Rubin,预计在2026年下半年发布。
这个命名致敬的是发现暗物质的天文学家Vera Rubin。
Vera Rubin有两个部分,一个称为Vera的CPU和一个称为Rubin的新GPU。
两部分一同使用时,Rubin可以在推理时实现每秒50千万亿次浮点运算,比Blackwell速度高出一倍多。
显存方面,Rubin将升级为HBM4,容量仍然为288GB。
不过,Rubin的带宽将会有大幅升级,从原来的8TB/s提高到13TB/s,提高了1.6倍。
不仅如此,NVIDIA还会为Rubin扩展NVLink,将其吞吐量提升到260TB/s,直接翻倍!
机架间的全新CX9链路达到了28.8TB/s。
不仅有标准版Rubin,老黄现场还推出了Rubin Ultra版本。
Rubin Ultra NVL576在FP4精度下进行推理任务时,性能达到了15 ExaFLOPS,在FP8精度下进行训练任务时,性能为5 ExaFLOPS。相比GB300 NVL72性能有14倍的提升。
配备HBM4e内存,带宽为4.6 PB/s,支持 NVLink 7,带宽为1.5 PB/s,较上一代提升12倍。
Rubin Ultra NVL576机架支持CX9,带宽为达到了115.2 TB/s,较上一代提升了8倍。
预计在2027年下半年推出。
Blackwell NVLink72和Rubin NVLink 576尺寸最直观的对比,再一次证明了需要在scale up之前,先要完成scale out。
可以看到浮点运算能力,Hopper架构是1倍提升,Blackwell 68倍提升,到了Rubin直接跃升至900倍。
另外总拥有成本(TCO),也在随着架构迭代大幅降低。
那么,英伟达是如何实现scale up?
主要是通过网络InfiniBand和Spectrum X。后者具备了低延迟和拥塞控制特性,并且成功scale up有史以来最大的单GPU集群。
不仅如此,英伟达还希望在Rubin时间框架内,将GPU的数量扩展至数十万个。而这一目标实现的主要挑战在于,大规模连接的问题。
值得一提的是,老黄官宣了英伟达首个共封装硅光子系统,也是世界上第一个每秒1.6T的CPO。
它基于一种「微环谐振器调制器」的技术(micro ring resonator modulator),并使用了台积电工艺技术构建。
现在,具备了将硅光子学与共封装的结合,无需使用收发器,直接接入光线,并将其集成到512径基数的交换机中。
这样,便能够轻轻动动扩展至数十万,甚至百万GPU规模。
至于再下一代,则是将于2028年上市的Feynman(费曼)。
该命名致敬了美国著名理论物理学家Richard Feynman。
桌面级「黄金超算」,AI算力20000 TFLOPS
苹果这个月刚刚发布能跑6000亿参数的Mac Studio,反身又要被英伟达超越了。
今天,老黄正式推出Blackwell RTX PRO工作站和服务器系列,专为开发者、创意工作者、数据科学家构建和协作提供全方位的AI支持。
具体来说,它包括了数据中心GPU、桌面GPU,以及笔记本GPU。
这些GPU能够提供卓越的性能、效率,解锁生成式AI、智能体AI和物理AI的巨大潜力。
RTX PRO 6000 Blackwell采用了英伟达流式多处理器提供高达1.5倍吞吐量,第五代Tensor Core支持高达每秒4000万亿次AI运算,第四代RT Core性能提升高达前一代的2倍。
不仅如此,老黄还带来了两款由Blackwell驱动的DGX个人桌面AI超级计算机。
一个是DGX Spark(原名Project DIGITS),另一个是DGX Station。
老黄称,「AI已经改变了计算堆栈的每一层,理所当然就会出新一类的计算机——专为AI原生开发者设计,并运行AI原生程序」。
这两款桌面超级计算机,便是这样的存在。
DGX Spark可以称得上,世界上最小的AI超级计算机,配备128GB内存。
核心是GB10 Grace Blackwell超级芯片,能够提供每秒高达1000万亿次操作的AI计算能力,可以用于微调和推理模型。
DGX Station则将数据中心级别的性能,带到每个人桌面用于AI开发。
作为首款采用GB300 Grace Blackwell Ultra桌面超级芯片构建的系统,DGX Station配备了高达784GB的统一内存,以加速大规模训练和推理工作负载。
如下是Blackwell驱动下,所有英伟达DGX家族。
Scaling Law没撞墙,2028年数据中心将达一万亿!
开场时,老黄手举GeForce 5090,和4090做了对比,它的体积小了30%,性能的提升却难以置信。
GeForce将CUDA带给了全世界,而CUDA开启了AI,而AI又反过来改变了计算机图形学。
如今大火的则是智能体AI,它可以感知、理解、推理,还能计划行动,使用工具,自己访问网站去学习。
而接下来,就是物理AI,它将理解物理世界,理解摩擦、惯性、因果关系。它使机器人技术成为可能。
而这次大会上,Agentic AI和Physical AI将是全程的核心。
接下来,老黄重提了Scaling Law。
这涉及了三大问题:如何解决数据?如何训练模型?如何扩展?
预训练要解决数据问题,后训练解决的是human-in-the-loop问题,而测试时Scaling,则提升了AI的推理。
老黄表示,去年整个世界都搞错了,Scaling并没有撞墙!
从GPT开始,到如今的推理AI,它不再是仅仅预测下一个token,而是生成100多倍的token。
这样,推理计算量就更高了,计算速度必须提高10倍,如今需要的计算量比去年这个时候我们认为需要的多出100倍。
那么,数据应该从哪里来?答案就是强化学习。
通过强化学习,我们可以生成大量token,这就涉及到了合成数据,给整个行业带来巨大的计算挑战。
比较一下Hopper的峰值年份和Blackwell的第一年,会发现:AI正处于转折点。
Blackwell发货才一年,我们就见证了全球AI基础设施的惊人增长。仅在2024年,全球TOP 4的云服务商买进的Hopper架构芯片就达到130万块。
老黄表示,未来数据中心建设将达到一万亿美元的规模,并且他确信,这个时间很快了!
根据预测,到2028年就能达到这个规模。
如今,通用计算已经走到了尽头,我们已经到达加速计算临界点,需要一种新的计算方法。
世界正在经历一个平台转移,从在通用计算机上运行的手写软件,转向在加速器和GPU上运行的机器学习软件。
过去,我们编写软件并在计算机上运行。未来,计算机将为软件生成token。
计算机已经成为生成token的工具,而不仅仅是文件的检索工具,老黄称之为「AI工厂」。