主要观点总结
英伟达CEO黄仁勋在GTC大会上分享了关于AI的最新发展和未来趋势的信息,包括Blackwell和Vera Rubin等AI加速卡的新进展,AI工厂的性能提升,以及AI在物理世界的应用等。文章详细介绍了黄仁勋的演讲内容,包括英伟达的AI战略、新产品发布、未来展望等。
关键观点总结
关键观点1: 英伟达发布了一系列新的AI产品和技术,包括Blackwell Ultra、Vera Rubin架构等,旨在提升AI的计算性能和效率。
黄仁勋强调了AI计算需求的大幅增长,并展示了英伟达的AI战略。英伟达发布了一系列新产品,如Blackwell RTX Pro系列图形产品,以及更强大的AI加速卡Blackwell Ultra NVL72。此外,还展示了下一代架构Vera Rubin和未来的产品规划。
关键观点2: 英伟达致力于推动AI在物理世界的应用,特别是机器人领域。
黄仁勋展望了AI的未来,认为AI将延伸到物理世界,主要形式为工业机器人、自动驾驶车辆和狭义的人形机器人。英伟达提供了预训练模型平台、模拟器以及计算平台来支持这一趋势,并展示了与迪斯尼和DeepMind联合开发的机器人平台Newton。
关键观点3: 英伟达通过软件优化和硬件创新来满足AI计算的需求。
为了提升效率,英伟达在软件方面推出了AI工厂的操作系统——NVIDIA Dynamo,它是一个分布式推理服务库,旨在解决用户需要token但无法提供足够token的问题。此外,英伟达还展示了新的GPU架构和互联技术,如NVLink交换机和Quantum-X,以满足AI任务对内存、带宽和计算速度的巨大需求。
正文
Token is the new frontier.
「因为 AI 技术爆发,GTC 大会的规模每年都在扩大,以前人们说 GTC 是 AI 的伍德斯托克音乐节,今年我们搬进了体育场,我觉得 GTC 已经成了 AI 的超级碗,」英伟达 CEO 黄仁勋说道。「唯一的不同在于每个人都是『超级碗』的赢家。」
北京时间 3 月 19 日凌晨,全世界的目光都汇聚在加州圣何塞 SAP 中心,期待英伟达给出的下一个 AI 大方向。
老黄的 Keynote 演讲行云流水,没有提词器。
在详细介绍 Keynote 内容之前,我们划下重点:
-
Blackwell 已经全面投产。「产量惊人,客户需求惊人,因为人工智能出现了一个拐点,由于推理人工智能以及推理人工智能系统和智能体系统的训练,我们在人工智能领域必须完成的计算量大大增加。」
-
Blackwell Ultra 将于 2025 年下半年上市,下一代 AI 加速器架构 Vera Rubin 则会在 2026 年推出。
-
搭载分布式推理系统 Dynamo 的 Blackwell NVLink 72 的「AI 工厂」性能是英伟达 Hopper 的 40 倍。「随着人工智能规模的扩大,推理将成为未来十年最重要的工作负载之一」。
-
按照最新路线图,英伟达正在构建三种 AI 基础设施:一种用于云,第二种用于企业,第三种用于机器人。
发布会上,老黄再次拿出 CES 上展示的 AI 发展曲线:
从 2012 年的 AlexNet 开始,现在我们处于生成式人工智能的阶段,即将进入智能体时代,随后是物理人工智能。物理 AI 也就是进入物理世界的人工智能,包括自动驾驶汽车与机器人。「每一次浪潮都为我们打开了新的市场机遇。」
再增加一个维度,不容忽视的是 DeepSeek R1 推动测试时扩展(Test-Time Scaling)给机器智能带来的全新发展曲线:
智能背后是计算的力量。预训练时代解决数据问题,后训练解决的是 human-in-the-loop 问题,而测试时间扩展则是为了增强 AI 的推理能力。每一阶段都有自己的 Scaling Law,算力都是强需求。
所以,虽然 DeepSeek R1 的高效率给全世界以震撼,让人们正在重估大模型的算力需求,但英伟达对于未来的 AI 算力需求仍然非常乐观。
英伟达给出了一组数据:仅在 2024 年,全球前四的云服务运营商共采购了 130 万片 Hopper 架构芯片。预计数据中心的建设投资将很快达到 1 万亿美元。不知道其中有多少是 OpenAI 星际之门项目的贡献。
AI 计算不是在萎缩,而是在通货膨胀,老黄进一步给出了两个增长曲线:
-
第一个曲线,软件都会因为 AI 而加速,在常规云服务上运行的人类编写软件,会转变为 AI 编写的软件运行在加速 AI 基础设施上;
-
第二个曲线,人们编写的文字提示获得 AI 生成的 token,转变成为 AI 生成的 Token 引导出 AI 生成的结果(即强推理)。
每个企业未来都会有两个工厂,一个是物理的工厂,一个是 AI 的虚拟工厂。英伟达为所有行业的变革准备了新的工具,包括 CUDA X 软件库,其中包括用于 NumPy 的 cuPYNUMERIC、用于量子计算的 cuQUANTUM 和 CUDA-Q、用于深度学习的 NCCL 和 cuBLAS 等等。
所有这些库都依赖 CUDA 核心来完成工作,为此英伟达也准备好了更先进的 AI 算力。
Blackwell 架构的 AI 加速卡现在已经全面进入量产阶段,正在推动下一波 AI 基础设施浪潮。「这是我们改变计算架构基础的重要一步,」黄仁勋说道。
在芯片架构进步的同时,英伟达正在研究让用户同时访问多个 GPU 的 NVLINK 交换机。
大规模的推理可能是英伟达迄今为止面临的最复杂的计算问题,但又是 AI 未来的方向。过去几个月里,很多人都在尝试使用 DeepSeek,肯定已经有了亲身体验:
黄仁勋展示了新旧两代大模型是如何解决「为七位客人优化婚宴餐桌位次」的问题。上代大语言模型 Llama 输出了 439 个 token,结果不尽如人意。强推理模型 DeepSeek R1 输出了 8559 个 token 进行了一番推理,花费的时间更长,计算量也更大,但结果真正能被人用得上。
老黄表示:「这是个只有丈母娘或者 AI 才能解决的问题。」
但是上面这个问题需要消耗 150 倍的算力。AI 服务商希望尽可能地向每位用户提供更高的速度,同时也希望尽可能地向更多用户提供服务。这就产生了对内存、带宽、计算速度等各个方面的巨大需求。Grace Blackwell NVLink72 正是为满足这样的需求诞生的。
为了提升效率,英伟达在软件上也有创新,提出了「AI 工厂的操作系统」——NVIDIA Dynamo。它是一个「分布式推理服务库」,而且是一个开源解决方案,解决的是用户需要 token 但无法提供足够 token 的问题。据介绍,Dynamo 会被用于在大量 GPU 之间高效编排和协调 AI 推理请求。目前,微软、Perplexity 等公司已宣布开始接入这一系统。
接下来,让我们看看软件 + 硬件能够带来的算力效率提升。如果强推理模型落地成产品,我们就需要 AI 能以极快的速度跑完思维链。「只有在英伟达,你才会这样被数学折磨,」老黄说道。在推理模型中,最新版 Blackwell 的性能是 Hopper 的 40 倍:
黄仁勋展示了一个非常直观的对比。同样是 100 MW 功率的 AI 工厂,使用 GB200 搭建的数据中心的生产力是使用 H100 的数据中心的 40 倍,同时机架数量还能从 1400 大幅减少到 600。
现在不是「the more you buy the more you save」了,而是「the more you buy the more you generate」。「全球 TOPS 的云服务提供商(CSP)订购的 Blackwell 芯片数量是 Hopper 的三倍,AI 算力的需求正在迅猛增长。」黄仁勋表示。