专栏名称: CDCC

数据中心标准、技术沟通交流平台

黄仁勋3万字完整精校实录："思考型token"爆发，AI infra即将巨变

CDCC · 公众号 · · 2025-03-20 12:19

正文

北京时间3月19日凌晨，英伟达创始人兼CEO黄仁勋发表GTC 2025主题演讲。黄仁勋宣布了一系列重磅发布，展示了英伟达在加速计算和AI领域的最新进展和未来布局。

黄仁勋指出， A I处于一个关键的转折点，推理和Agentic AI的需求推动了计算量的激增。他还预测到2030年，数据中心的建设规模将达到一万亿美元；未来有工厂的企业将会有两个工厂：一个用于生产实际产品，另一个是AI工厂。

大会现场， 黄仁勋宣布Blackwell平台已全面投产， 在特定推理模型测试场景下，Blackwell的性能最高可达Hopper的40倍。 今年下半年将推出的Blackwell Ultra， 还透露了下一代 NVIDIA Rubin Ultra GPU 和 NVIDIA Vera CPU 架构的细节。

此外，宣布推出“AI工厂的操作系统”Nvidia Dynamo，用于加速和扩展AI工厂中的推理模型；为支持AI工厂扩展到数百万个GPU，还推出了首个采用共同封装光学（CPO）技术的硅光子系统等。

黄仁勋还宣布通用汽车将采用NVIDIA AI、模拟和加速计算技术来开发下一代汽车、工厂和机器人。在机器人方面，英伟达还发布了Omniverse（物理AI的操作系统）、新一代世界基础模型Cosmos、Newton（与DeepMind和Disney Research合作开发的物理引擎）以及人形机器人的通用基础模型Isaac Groot N1并开源。

以下是GTC2025黄仁勋演讲全文实录

经数字开物团队编译整理

欢迎来到GTC！今年真是太棒了。我们Nvidia一直想把GTC办好，所以，今天我们用AI的魔法，带大家到Nvidia总部逛一逛。猜猜这是哪儿？这就是我们平时工作的地方！真是精彩的一年。我们有很多超酷的事情要和大家分享。先说好，我可是完全即兴发挥，没有稿子，也没有提词器，不过我要讲的东西可不少。咱们这就开始吧！

首先，我要感谢所有的赞助商，感谢所有参与这次大会的嘉宾们。几乎各行各业都有代表参加。医疗、交通、零售，还有计算机行业，计算机行业的各位都来了。见到大家真是太好了，感谢你们的赞助。

GTC最早是从GeForce开始的。一切都源于GeForce。今天我手上拿的是GeForce5090。你敢信吗，我们开始做GeForce已经25年了，现在GeForce在全世界都卖断货了。这是5090,采用Blackwell架构。跟4090比，体积小了30%，散热效果好了30%，性能更是难以置信，甚至难以比较，这都得归功于AI。

GeForce把CUDA带给了全世界，CUDA又让AI成为可能。现在，AI反过来又彻底改变了计算机图形学。你们现在看到的可是实时的计算机图形，100%路径追踪。每渲染一个像素，AI就能预测出另外15个。想想看，我们用数学方法渲染一个像素，AI就能推算出另外15个！而且，它还必须算得特别准，这样图像才好看，而且还得保证时序稳定，也就是说，一帧一帧地看，不管是往前还是往后，因为这是计算机图形，所以它得一直保持稳定。

太不可思议了，AI这些年进步太大了。虽然也就10年时间。我们讨论AI的时间可能更长一些。 但AI真正火起来，也就是十年前的事。一开始是感知AI， 比如计算机视觉、语音识别，后来就是生成式AI。 过去五年，我们主要关注生成式AI， 教AI怎么把一种形式的东西转换成另一种形式。文本变图像，图像变文本，文本变视频，氨基酸变蛋白质，属性变化学物质。我们能用AI生成各种各样的东西。

生成式AI彻底改变了计算机的工作方式，从原来的检索式计算模型，变成了现在的生成式计算模型。以前，我们做的基本上都是预先创建好内容，存好几个版本，用的时候再挑一个合适的。现在，AI能理解你说的是什么，明白你的意思，知道你要干什么，然后直接生成你需要的东西。有需要的话，它还会自己去找资料，加深理解，然后给你生成答案。它不再是简单地找数据，而是直接生成答案。这可是计算方式的根本性变革，计算机的每一层都变了。

过去几年，特别是最近两三年，AI领域有了重大突破。这是AI的根本性进步。我们管它叫基于智能体的AI（Agentic AI）。 Agentic AI基本上意味着AI有了自己的“代理”，能自己干活了。它能感知周围的环境，理解发生了什么。它能推理，更厉害的是，它能琢磨怎么回答问题，怎么解决问题。它能规划行动，并付诸实践。它还能用各种工具，因为它现在能理解各种各样的信息，也就是多模态信息。它能上网，看网页的布局、文字、视频，甚至还能看视频学习，理解了之后，再用这些新学到的知识来完成任务。

Agentic AI的核心，当然是一种全新的能力——推理。而且， 下一波浪潮已经来了。 今天我们会好好聊聊这个。这就是机器人技术（Robotics），它是由物理AI（physical AI）来驱动的。物理AI就是能理解现实世界的AI，它懂摩擦力、惯性、因果关系、物体恒存性这些东西。比方说，一个东西挪到墙角后面了，AI知道它还在那儿，只是看不见了。所以说， 这种理解现实世界、理解三维世界的能力，会开启一个AI的新时代，我们叫它物理AI， 它会让机器人技术更上一层楼。

每一个阶段，每一波浪潮，都给我们大家带来了新的赚钱机会。也给GTC带来了更多新的合作伙伴。所以，GTC现在都快挤爆了。要想让更多人来GTC，唯一的办法就是把圣何塞给扩建了。我们正在努力，我们有的是地。圣何塞，你可得加油发展，这样我们才能把GTC办得更大更好。说真的，我站在这儿，真希望你们也能看到我看到的。我们现在就在一个体育场的正中间。去年是咱们恢复线下活动的第一年。当时就跟摇滚音乐会似的。有人说GTC是AI界的伍德斯托克音乐节。今年呢，又有人说它是AI界的超级碗。唯一的区别就是，在这个超级碗里，大家都是赢家！所以，每年都有越来越多的人来，因为AI能给越来越多的行业、越来越多的公司解决更多更有意思的问题。 今年，要好好聊聊Agentic AI和物理AI的核心。

那么， 到底是什么推动了AI的每一波浪潮和每一个阶段呢？这里面有三个关键。

首先是怎么解决数据的问题。 这一点很重要，因为AI是一种数据驱动的计算机科学方法。它得从数据里学习，从数字化的经验里学习，才能学到知识，积累经验。那么，怎么解决数据问题呢？第二个问题是，怎么才能在没有人工干预的情况下训练AI？“人工干预”这事儿挺麻烦的，因为咱们的时间有限，我们又希望AI能学得飞快，比人快得多，而且能学得特别多，多到人根本跟不上。所以， 第二个问题就是，怎么训练模型？

第三个问题是，怎么才能让AI规模化，不断扩展？ 如何创造、如何找到一种算法，使得你提供的资源越多（无论是什么样的资源），AI就变得越聪明。这就是Scaling Law。然而，在过去的一年里，几乎全世界都对此产生了误判。计算需求，也就是AI的Scaling Law，其韧性远超预期，实际上呈现出超加速增长的态势。由于Agentic AI， 由于推理能力的引入，我们现在所需的计算量，比去年同期我们的预期高出了100倍。 让我们来分析一下这背后的原因。

首先，让我们从AI能够做什么入手，然后反向推导。正如我之前提到的，Agentic AI的基础实际上是推理能力。我们现在所拥有的AI能够进行推理，这意味着它们可以将一个问题逐步分解。也许，它会尝试几种不同的方法来解决问题，然后选择最佳答案。又或许，它会用多种方式来解决同一个问题，以确保得到一致的最佳答案。这被称为一致性检查。再或者，在得出答案之后，它会把答案代入到原始的方程式中——例如一个二次方程式——来验证答案是否正确，而不是简单地、一次性地给出结果。还记得两年前我们刚开始使用ChatGPT的时候吗？尽管它是一个奇迹，但许多复杂的问题，甚至是许多简单的问题，它都无法给出正确的答案。这是可以理解的。它只是进行了一次尝试。基于它通过学习预训练数据所获得的知识，基于它从其它经验、预训练数据中所看到的内容，它会像一个学者一样，一次性地给出答案。但现在，我们拥有的AI能够一步一步地进行推理，这得益于一系列的技术，如思维链、一致性检查，以及各种不同的路径规划等技术。现在，我们拥有的AI能够推理，能够将问题分解，一步一步地进行推理。

可以想象，这样一来，我们生成的Token数量，虽然AI的基础技术仍然是相同的——生成下一个Token，预测下一个Token， 但现在的下一个Token构成了第一步， 然后是下一个Token，在它生成第一步之后，第一步会再次作为输入，让AI生成第二步、第三步和第四步。所以，它不再是简单地生成一个Token或一个单词，而是生成一系列的单词，这些单词代表着推理的一个步骤。因此，生成的Token数量大幅增加。稍后我会给你们展示具体的数据， 现在可以轻松达到100倍的增长。 增长了100倍。这意味着什么呢？这意味着，它可以生成100倍的Token。

正如我之前解释的，这种情况可能会发生，或者是因为模型变得更加复杂，从而生成10倍的Token。而为了保持模型的响应速度和交互性，避免我们因为等待AI思考而失去耐心，我们现在必须将计算速度提升10倍。 因此，10倍的Token，10倍的速度。我们所需要的计算量很容易就达到了100倍。 所以，你们会在接下来的演示中看到这一点。

现在，我们进行推理所需的计算量比过去要大得多。那么，接下来的问题就是，我们如何教会AI完成我刚才所描述的任务，如何执行这个思维链？一种方法是，你必须教会AI如何推理。正如我之前在关于训练的部分提到的，我们需要解决两个基本问题。数据从何而来？以及我们如何避免受到“人工干预”的限制？因为我们能够提供的数据和进行的演示是有限的。而这正是过去几年里取得的重大突破。强化学习，以及可验证的结果。

本质上，这是对AI的一种强化学习，当它尝试解决一个问题时，一步一步地进行。在人类历史上，我们已经解决了许多问题，并且知道这些问题的答案。我们知道二次方程的公式以及如何求解。我们知道如何求解勾股定理，知道直角三角形的规则。我们知道许多数学、几何、逻辑和科学方面的规则。我们有一些益智游戏，我们可以给AI设置一些约束条件，比如数独之类的游戏，等等。我们有数百个这样的问题空间，我们可以生成数百万个不同的例子，让AI有成百上千次的机会逐步解决问题，同时，我们使用强化学习来奖励那些表现越来越好的AI。因此，综合来看，我们有数百个不同的主题，数百万个不同的例子，数百次的尝试，每一次尝试都会产生数万个Token。把所有这些加在一起，就是为了训练模型而产生的数万亿个Token。现在，借助强化学习，我们有能力生成海量的Token，还有合成数据生成，其实就是使用一种类似于机器人的方法来训练AI。这两项技术的结合，给整个行业带来了巨大的计算挑战。你们可以看到，整个行业正在积极应对。

接下来我要向你们展示的是Hopper的出货量，来自前四大云服务提供商（CSP）。这四大云服务提供商拥有公有云，分别是Amazon、Azure、GCP和OCI。这前四大云服务商，注意，这里面并不包括AI公司，也不包括所有的初创公司和企业。有很多都没有包括在内，仅仅是这四家。这只是为了让你们对Hopper的出货高峰年份以及Blackwell的第一年有一个大致的了解。

你们可以看到， 事实上，AI正在经历一个拐点。 它变得更加有用，因为它变得更聪明了。它能够进行推理，因此它的应用也更加广泛。从一个现象就可以看出它的应用越来越广泛：现在每当你使用ChatGPT的时候，似乎等待的时间越来越长了，但这其实是一件好事。这说明有很多人都在有效地使用它。而训练这些模型以及进行推理所需的计算量，都出现了巨大的增长。所以，仅仅在一年之内（Blackwell才刚刚开始发货），你们就可以看到AI基础设施的惊人增长。与此同时，整个计算领域也反映了这一点。我们现在看到的情况是一直到这个十年的结束， 到2030年，我预计数据中心的建设规模将达到一万亿美元。我相当肯定，我们很快就会达到这个数字。

（紫色部分代表分析师对全球数据中心（包括云服务提供商和企业等）资本支出增长的预测）

有两种趋势同时发生。第一种趋势是，绝大部分的增长可能会被加速。 绝大部分的增长可能会被加速。这意味着我们早就知道了，通用计算这条路已经走到头了，我们需要一种新的计算方法。整个世界正在经历一场平台级的转变，从原来在通用计算机上跑的手工编写的软件，转向在加速器和GPU上跑的机器学习软件。这种计算方式，可以说，已经越过了那个关键的转折点。 现在，我们能看到拐点正在出现，全球的数据中心建设正在发生巨变。所以，第一件事，就是我们的计算方式变了。

第二个是越来越多的人意识到，未来的软件是需要真金白银的投入的。 这是一个非常重要的概念。在过去，我们写好软件，然后在计算机上运行就完事了。但未来不一样了，计算机会为软件生成Token。这样一来，计算机就成了Token的生成器，而不是简单的文件检索器。从基于检索的计算到生成式计算， 从老一套的数据中心模式，到构建这些新型基础设施，我把它们叫做AI工厂。 它们就是AI工厂，因为它们只干一件事，那就是生成这些特别厉害的Token，然后我们再把这些Token重新组合成音乐、文字、视频、研究成果、化学品或者蛋白质，等等。我们把它转化成各种各样的信息。

所以，整个世界正在经历一场变革，不仅仅是信息量、要建设的数据中心数量在变，连怎么建设的方式都在变。数据中心里，所有的东西都会被加速，但不一定都是AI。关于这一点，我想多说几句。这张幻灯片，是我个人的最爱。为什么这么说呢？因为这么多年来，你们一直都来参加GTC，一直听我在这里讲这些库。实际上，这就是GTC的核心所在，浓缩在这一张幻灯片里。

不夸张地说，很久以前，20年前，我们就只有这一张幻灯片。一个库接着一个库，不断地增加。你不能光去加速软件本身。这就好比，我们需要一个AI框架来创造AI，然后我们去加速这个AI框架。同样的道理，你也需要物理学、生物学、多物理场，以及各种各样的量子物理学的框架。你需要各种各样的库和框架。我们把它们叫做CUDA X库，它们是各个科学领域的加速框架。第一个要介绍的库非常厉害，NumPy是全世界下载量最大、使用最广泛的Python库，去年一年就被下载了4亿次。CuLitho，是一个计算光刻库。经过四年多的努力，我们现在已经掌握了处理光刻的整个流程，也就是计算光刻，这是晶圆厂里的第二个工厂。一个是制造晶圆的工厂，另一个是制造用于生产晶圆的信息的工厂。

每个行业， 每个拥有工厂的公司，未来都会有两个工厂。一个是负责生产实际产品的工厂，另一个是负责进行数学计算的工厂。 AI工厂，汽车工厂，汽车的AI工厂，智能音箱工厂，还有智能音箱的AI工厂。CuLitho就是我们的计算光刻。台积电、三星、ASML，以及我们的合作伙伴Synopsys、Mentor，都给予了我们极大的支持。我认为，这个领域现在正处在一个关键的转折点，再过五年，每一个光刻过程，都将在Nvidia的平台上进行处理。Cuda Arial是我们的5G库。把GPU变成5G无线电设备，这有什么不可以呢？信号处理可是我们的强项。一旦我们搞定了这个，我们就能在它的基础上叠加AI。也就是用于RAN的AI，或者我们叫它AI RAN。下一代的无线电网络，一定会深度嵌入AI。为什么我们现在会被信息论限制住呢？因为我们能获得的频谱资源就那么多。但是，如果我们加上AI，情况就完全不同了。 Cu OPT 是数值优化，或者叫数学优化。几乎每个行业都会用到它，比如你安排航班座位、管理库存和客户、协调工人和工厂、调度司机和乘客等等，总之就是会遇到各种各样的约束条件。大量的约束，大量的变量，你需要对时间、利润、服务质量、资源利用率等等进行优化。

Nvidia就用它来管理我们的供应链。Cu OPT是一个非常强大的库。它能把原本需要几个小时才能完成的任务，缩短到几秒钟。这有什么意义呢？这意味着我们现在可以探索一个大的多的解空间。我们已经宣布，将会开源 Cu OPT 。现在，几乎所有人都在用Gurobi或者IBM、CPLEX或者FICO。

我们正在和这三家公司紧密合作。整个行业都非常兴奋。我们即将为这个行业带来巨大的加速。Parabricks是用于基因测序和基因分析的。MONAI是全球领先的医学成像库。Earth2是用于预测高分辨率局部天气的多物理场仿真库。CuQantum和Cuda Q，我们将在GTC上举办我们的第一个量子计算日。我们正在和这个生态系统里的几乎所有人合作，要么帮助他们研究量子架构、量子算法，要么一起构建经典的加速量子异构架构。所以，这方面的工作非常令人兴奋。cuTENS0R和相关量子化学加速库是用于张量收缩和量子化学的。当然了，这个技术栈是世界闻名的。很多人以为只有一个叫做CUDA的软件，但实际上，在CUDA之上，有一整套的库，这些库被集成到了整个生态系统、软件和基础设施的方方面面，这样才能让AI成为可能。

今天，我还要宣布一个新的成员：cuDss， 我们的稀疏求解器。这对于CAE(计算机辅助工程)来说至关重要。这是过去一年里发生的最重要的事情之一。通过与Cadence、Synopsys、Ansys、Dassault，以及所有这些系统公司的合作，我们现在已经让几乎所有重要的EDA(电子设计自动化)和CAE库都实现了加速。说出来你们可能不信，直到最近，Nvidia还一直使用通用计算机，运行着速度非常慢的软件，来为其他人设计加速计算机。原因就在于，我们之前一直没有针对CUDA进行优化的软件。所以，现在随着我们转向加速计算，我们的整个行业都将迎来一次巨大的飞跃。CuDf，是用于处理结构化数据的数据框。我们现在已经实现了对Spark和Pandas的嵌入式加速。真是太棒了，然后，我们还有Warp，这是一个用Python编写的物理库，是专门为CUDA打造的Python物理库。关于这个，我们有一个重要的消息要宣布，我先卖个关子，稍后再说。

这里展示的只是一小部分能够实现加速计算的库。绝不仅仅只有CUDA。我们为CUDA感到无比自豪，但如果没有CUDA，没有我们如此庞大的用户基础，这些库也不会被这么多的开发者所使用。对于所有使用这些库的开发者来说，你们之所以使用它，首先是因为它能给你们带来难以置信的加速，能让你们实现难以置信的规模扩展；其次，是因为CUDA的用户基础现在无处不在。它存在于每一个云平台，每一个数据中心，全世界每一家计算机公司都在提供它。毫不夸张地说，它无处不在。所以，通过使用这些库中的任何一个，你的软件，你那些优秀的软件，就能触及到每一个人。因此，我们现在已经到达了加速计算的转折点。CUDA让这一切成为可能。而你们在座的每一位，这就是GTC的意义所在，整个生态系统，是你们所有人让这一切成为可能。所以，我们为你们准备了一个小短片。谢谢大家。

向所有的创造者、先行者、未来的建设者们致敬！CUDA为你们而生。自2006年以来，全球超过200个国家和地区的600万开发者使用了CUDA，并彻底改变了计算领域。凭借着900多个CUDA X库和AI模型，你们正在加速科学的进步，重塑各行各业，并赋予机器视觉、学习和推理的能力。现在，Nvidia Blackwell的速度比第一代CUDA GPU快了5万倍。这种数量级的速度提升，以及规模的扩展，正在不断缩小模拟与现实之间的差距。数字孪生(DigitalTwins)。而对于你们来说，这仅仅是一个开始。我们迫不及待地想看到你们接下来的行动。

我热爱我们的工作。我更热爱你们用它所创造的一切。在我这33年的职业生涯中，最让我感动的一件事，是一位科学家对我说：“Jensen，因为这项工作，因为你的工作，我终于可以在有生之年完成我毕生的事业了。”老天，如果这都不能打动你，那你可真是太麻木了。所以，这一切都是为了你们。谢谢大家。

我们继续来聊聊AI。AI最初是在云端发展起来的，这是有原因的。因为事实证明，AI需要基础设施。它是机器学习。既然这门科学叫做机器学习，那你就需要一台机器来进行科学研究。所以，机器学习需要基础设施。而云数据中心恰恰拥有基础设施。他们还拥有非常强大的计算机科学和卓越的研究实力。这是AI在云端和云服务提供商那里蓬勃发展的绝佳条件。但这并不是AI的终点。AI将会无处不在。我们将从多个角度来探讨AI。当然了，云服务提供商都喜欢我们的尖端技术。他们喜欢我们拥有全栈的技术体系，因为正如我之前解释过的，加速计算不仅仅是芯片的事情。甚至不仅仅是芯片、库和编程模型，而是芯片、编程模型，以及构建在它们之上的一整套软件。

整个技术栈是非常复杂的。每一层，每一个库，基本上都类似于SQL。SQL，被称为存储计算。它是IBM在计算领域掀起的一场重大革命。SQL仅仅是一个库。大家可以想象一下，我刚才给你们展示了一大堆库，而在AI领域，还有更多。所以，这个技术栈是非常复杂的。云服务提供商也喜欢Nvidia CUDA的开发者同时也是他们的客户，因为归根结底，他们是在为全世界构建基础设施。所以，一个繁荣的开发者生态系统是非常有价值的，也是备受赞赏的。现在，我们要把AI推广到世界各地，而世界各地的情况千差万别，系统配置不同、操作环境不同、特定领域的库不同，使用方式也不同。

所以，当AI应用到企业中，IT应用到制造业、机器人技术或者自动驾驶汽车领域，甚至应用到那些刚刚起步的GPU云公司时，有很多这样的公司，大概有20家，它们都是在Nvidia时代创立的。他们只做一件事，那就是托管GPU，他们把自己叫做GPU云。我们的一个重要合作伙伴Core Weave正在准备上市，我们为他们感到非常骄傲。所以，GPU云有他们自身的需求。但其中一个让我非常感兴趣的领域是边缘计算。

今天，我们宣布，Cisco、Nvidia、T-Mobile，这家全球最大的电信公司，以及Cerberus ODC，将要为美国的无线电网络构建一个全栈的技术体系。这将是第二个技术栈。所以，我们今天宣布的这个技术栈， 将会把AI引入到边缘计算领域。 大家要记住， 全球每年有1000亿美元的资本投资于无线电网络和所有用于未来通信的数据中心， 毫无疑问，这些投资都将转向采用融入了AI的加速计算。AI肯定能在调整无线电信号、大规模MIMO，使之适应不断变化的环境和交通状况方面，做得更好。当然，我们会利用强化学习来实现这一点。MIMO本质上就是一个巨大的无线电机器人。这是毋庸置疑的。所以，我们当然会提供这些能力。AI无疑会给通信领域带来革命性的变化。大家想想，平时我给家里打电话的时候，不用多说什么，就几个字，因为我妻子知道我在哪儿工作，工作状态怎么样，我们的话题可以接着昨天继续聊，她大概也记得我喜欢什么、不喜欢什么，通常只需要几个字，就能表达很多信息。之所以这样，是因为存在着上下文，以及人类的先验知识。如果把这些能力结合起来，就能给通信领域带来翻天覆地的变化。看看它在视频处理方面所取得的成就。再看看我刚才所描述的3D图形。所以，我们当然也会在边缘计算领域做同样的事情。

因此，我对我们今天宣布的消息感到非常兴奋。T-Mobile、Cisco、Nvidia、Cerberus、ODC将会一起构建一个全栈的技术体系。AI将会进入到各行各业。这仅仅是其中之一。AI最早进入的领域之一就是自动驾驶汽车。当年我第一次看到Alexnet的时候，我们已经在计算机视觉领域耕耘了很长时间。看到Alexnet的那一刻，真是令人振奋，非常激动人心。这促使我们下定决心，要全力以赴地投入到自动驾驶汽车的研发中。所以，我们从事自动驾驶汽车的研发已经有十多年了，我们开发的技术几乎每一家自动驾驶汽车公司都在使用。这些技术可能应用在数据中心里。例如，特斯拉在数据中心里使用了大量的Nvidia GPU。也可能应用在数据中心或者汽车里。Waymo和Zoox在数据中心和汽车里都使用了我们的计算机。也可能仅仅应用在汽车里。这种情况比较少见，但有时候确实只应用在汽车里，或者他们会使用我们的所有软件。

此外，我们和汽车行业也有合作。更准确地说，汽车行业希望和我们合作。我们打造了三种计算机：训练计算机、模拟计算机和机器人计算机，也就是自动驾驶汽车的计算机。还有运行在这些计算机之上的所有软件、模型和算法。这和我之前展示的其他所有行业的情况是一样的。

今天，我非常高兴地宣布， 通用汽车选择了Nvidia作为合作伙伴，一起来打造他们未来的自动驾驶汽车车队。 自动驾驶汽车的时代已经到来了， 我们期待着与通用汽车在三个领域展开AI方面的合作：制造领域的AI， 用来革新他们的制造方式；企业级AI，用来革新他们的工作方式、汽车设计和汽车模拟；以及车内AI。为通用汽车构建AI基础设施，与通用汽车携手合作，共同打造他们的AI。

我对此感到非常兴奋。有一个领域我感到非常自豪，但很少有人关注到，那就是汽车安全，我们称之为Halos。安全这项工作，需要从芯片到整个系统的全方位技术。系统软件、算法、方法论，从多样性到确保多样性、监控、透明度、可解释性等等，所有这些不同的理念都必须深深地融入到你开发系统和软件的每一个环节。我相信，我们是全球第一家对每一行代码都进行安全评估的公司。七百万行代码都经过了安全评估。我们的芯片、我们的系统、我们的系统软件，以及我们的算法，都经过了第三方的安全评估，他们会逐行检查代码，以确保其设计能够保证多样性、透明度和可解释性。我们还申请了1000多项专利，在这次GTC期间，我强烈建议大家去参加Halos的研讨会，亲眼看看所有这些技术是如何融合在一起，来确保未来的汽车既安全又能够实现自动驾驶的。这是我感到非常自豪的一件事情。但很少有人关注到这一点，所以这次我想多花点时间来聊聊这个话题。好的，Nvidia Halos。你们都见过汽车自动驾驶的场景。Waymo的无人驾驶出租车非常棒。但是，我们制作了一段视频，想和大家分享一下我们用来解决数据、训练和多样性问题的一些技术，这样我们就可以利用AI的魔力来创造AI。让我们一起来看看。

Nvidia正在利用Omniverse和Cosmos来加速自动驾驶汽车(AVs)的AI开发。Cosmos的预测和推理能力为AI优先的AV系统提供了支持，这些系统可以通过新的开发方法、模型蒸馏、闭环训练和合成数据生成来实现端到端的训练。首先，模型蒸馏被用作一种策略模型。Cosmos的驾驶知识从一个速度较慢、但更智能的“老师”（这里指的是一个性能更好但速度较慢的模型）那里，迁移到一个更小、更快的“学生”（这里指的是一个需要部署到车端的模型）那里，并在车端进行推理。

老师的策略模型展示了最佳的行驶轨迹，学生模型通过反复迭代学习来模仿这条轨迹，直到它的表现几乎与老师的模型相同。蒸馏过程可以快速启动一个策略模型，但复杂的路况需要进一步的微调。闭环训练可以对策略模型进行微调。日志数据会被转换成3D场景，然后在基于物理的模拟环境中，利用Omniverse神经重建来进行闭环驾驶，创建这些场景的不同版本，来测试模型的轨迹规划能力。

然后，Cosmos行为评估器可以对生成的驾驶行为进行评分，来评估模型的性能。新生成的场景以及它们的评估结果，会创建一个用于闭环训练的大型数据集，帮助自动驾驶汽车更稳定可靠地应对复杂的路况。

最后，3D合成数据生成增强了自动驾驶汽车对不同环境的适应能力。Omniverse根据日志数据，通过融合地图和图像，构建出细节丰富的4D驾驶环境，并生成真实世界的数字孪生，包括通过对每个像素进行分类来指导Cosmos进行语义分割。然后，Cosmos通过生成准确且多样化的场景来扩展训练数据，从而缩小模拟环境和真实环境之间的差距。Omniverse和Cosmos使自动驾驶汽车能够学习、适应并智能地驾驶，从而推动实现更安全的出行。

Nvidia就是干这个的。这是我们的使命：用AI来创造AI。我们刚才给你们展示的那些技术，跟你们现在正在体验的、把你们带入到我们称之为Nvidia的数字孪生世界的那些技术，非常相似。好了，咱们来聊聊数据中心。Blackwell已经全面投产了，就是这个样子。真是太了不起了。你们知道吗，对于我们来说，这简直就是一件艺术品。你们觉得呢？这可是一件大事，因为我们在计算机架构上实现了一个根本性的转变。

实际上，大概三年前，我给你们展示过一个类似的版本。它叫做 Grace Hopper，整个系统叫做 Ranger。Ranger 系统大概有屏幕一半那么宽。它是世界上第一个 NVLink。三年前，我们展示了 Ranger 的运行效果，但是它太大了。不过，我们的思路是完全正确的。我们当时想要解决的就是扩展性的问题。横向扩展的分布式计算，简单来说，就是用一大堆不同的计算机一起工作，来解决一个特别大的问题。

但是在进行横向扩展之前，纵向扩展是必不可少的。两者都很重要，但是你得先进行纵向扩展，然后再进行横向扩展。纵向扩展非常困难，没有那么容易的解决方案。你不能像用 Hadoop 那样去进行纵向扩展或者横向扩展。弄一堆普通的计算机，把它们连接到一个大型网络里，然后用 Hadoop 来进行存储计算。大家都知道，Hadoop 是一个革命性的想法， 它让超大规模的数据中心能够解决海量的数据问题，而且通常使用的都是现成的计算机。 然而，我们现在要解决的问题实在是太复杂了，如果用 Hadoop 那种方式来进行扩展，会消耗掉太多的电力和能源。那样的话，深度学习就根本不可能实现了。所以，我们必须要做的就是首先进行纵向扩展。这就是我们进行纵向扩展的方式。我可搬不动这个大家伙。它足足有 70 磅重（约 31.8 公斤）。这是上一代的产品。整个系统的架构叫做 HGX。它彻底改变了我们所熟知的计算。它彻底改变了AI。

这里面有八个 GPU。每一个 GPU 都跟这个差不多。大家看，这是两个 GPU，两个 Blackwell GPU 被封装在一个 Blackwell 芯片里面。这个下面有八个这样的封装。它会连接到我们称之为 NVLink8 的这个东西上。然后，它再连接到像那样的 CPU 托架上。

所以这里有两个 CPU，位于整个系统的顶部。我们通过 PCI Express 来连接它们。然后，其中有很多个会通过 InfiniBand 连接起来，最终形成一个 AI 超级计算机。

过去是这样的。这就是我们一开始的方案。这就是我们在进行横向扩展之前，所能达到的纵向扩展的极限。但是我们希望能够进一步地进行纵向扩展。我之前跟大家说过，Ranger 这个系统，在之前的基础上又进行了横向扩展，更确切地说，是纵向扩展了四倍。我们当时有了 NVLink32，但是整个系统实在是太大了。所以，我们必须要做一些非常了不起的事情。那就是重新设计 NVLink 的工作方式，以及纵向扩展的方式。我们做的第一件事，就是，我们意识到，这个系统中的 NVLink 交换机是嵌入在主板上的。我们需要把 NVLink 系统解耦出来，把它单独拿出来。这就是 NVLink 系统。

大家看，这是一个 NVLink 交换机。这是目前世界上性能最强的交换机。它能够让每一个 GPU 都能够同时以全带宽和其他所有的 GPU 进行通信。这就是 NVLink 交换机。我们把它解耦出来，把它单独拿出来，然后放到了整个机箱的中央。这里一共有 18 个这样的交换机，分布在九个不同的机架里面，我们把它们叫做交换机托盘。然后，这些交换机是相互独立的。计算单元现在位于这里。它的计算能力相当于之前那两个部分的计算能力。最厉害的是，这是完全液冷的。通过液冷技术，我们能够把所有这些计算节点都压缩到一个机架里面。这是整个行业的一个重大变革。在座的各位，我知道你们来了很多人。我要感谢你们，和我们一起实现了从集成的 NVLink 到解耦的 NVLink、从风冷到液冷的这一根本性的转变。从每台计算机大约 60,000 个组件，到每个机架 600,000 个组件。20 千瓦全液冷。这样一来，我们就在一个机架里面实现了一台 Exaflops 级别的超级计算机。这难道不令人惊叹吗？这就是计算节点。

现在，它可以被安装到其中一个机架里面。3,000 磅（约 1360 千克）重，5,000 根线缆，长度大约有两英里。这真是一个令人难以置信的电子设备。600,000 个零部件。我觉得这相当于 20 辆汽车的零部件。把 20 辆汽车的零部件集成到一台超级计算机里面。我们的目标就是要实现这一点。我们的目标就是要进行纵向扩展。这就是它现在的样子。我们本质上是想要构建这样一块芯片。但是，没有任何光刻掩膜版的尺寸限制能够允许我们这样做。没有任何现有的工艺技术能够做到这一点。它拥有 130 万亿个晶体管。其中有 20 万亿个晶体管是用于做冗余计算的。所以，在短期之内，你根本不可能合理地制造出这样的芯片。

要解决这个问题，方法就是把它进行解耦，就像我刚才描述的那样，把它分解成 Grace Blackwell NVLink 72 机架。但最终的结果是，我们完成了终极的纵向扩展。这是世界上有史以来最极端的纵向扩展。这里能够实现的计算量、内存带宽（高达 570 TB/秒），这台机器里的一切现在都是以 T（万亿）为单位的。你拥有了一个 Exaflops，也就是每秒一百万万亿次的浮点运算能力。我们之所以要这样做，是为了解决一个极端的问题。

很多人误以为这个问题很简单，但实际上，这是最极端的计算问题。它叫做推理。原因很简单。推理就是一个工厂生产 Token 的过程。而工厂是用来产生收入和利润的，或者说，是会产生亏损的。所以，这个工厂必须以极高的效率和极高的性能来建造。因为这个工厂里的一切，都会直接影响到你的服务质量、你的收入和你的盈利能力。我来给大家解释一下这张图表怎么看，因为我一会儿还会再回到这张图表。

基本上，这里有两个坐标轴。X 轴是每秒钟生成的 Token 数量。每当你进行聊天的时候，当你向 ChatGPT 输入一个提示的时候，它输出的就是 Token。这些 Token 会被重新组合成单词。每个单词可不止一个 Token。它们会把“the”这样的词进行 Token 化，它可以用于“the”、“them”、“theory”、“theatrics”等等各种情况。“the”就是一个 Token 的例子。他们会把这些 Token 重新组合成单词。我们已经确定了，如果你想让你的 AI 变得更聪明，你就需要生成大量的 Token。

这些 Token 包括推理 Token、一致性检查 Token，以及提出一大堆想法，然后从中选择最佳方案的 Token。所以，这些 Token，它可能是在进行自我反思，这是否是我能做的最好的工作？所以它会像我们平时自言自语一样，跟自己对话。你生成的 Token 越多，你的 AI 就越聪明。但是，如果你回答一个问题花了太长的时间，客户就不会再来了。这和网页搜索是一个道理。在返回一个智能的答案之前，它能够花费的时间是有限度的。所以，你就会面临这两个相互制约的维度。你一方面想要生成大量的 Token，但另一方面，你又希望能够尽快地完成。所以，你的 Token 生成率就非常重要。你希望每一个用户每秒钟能够获得的 Token 数量越多越好。

然而，在计算机科学和工厂运营中，延迟、响应时间和吞吐量之间存在着一个根本性的矛盾。原因很简单。如果你从事的是大批量的业务，你会进行批量处理，这叫做批处理。你把大量的客户需求集中起来，然后生产出一个特定的版本，供所有人稍后使用。然而，从批量生产开始，到你最终使用，这中间可能会间隔很长的时间。所以，这对于计算机科学来说是一样的，对于生成Token 的 AI 工厂来说也是一样的。所以，你面临着这两个基本的矛盾。一方面，你希望客户的服务质量能够尽可能地好，希望 AI 能够非常智能，而且响应速度要快。另一方面，你又希望你的数据中心能够为尽可能多的人生产 Token，这样你才能最大化你的收入。最理想的状态是右上角。理想情况下，这条曲线的形状应该是一个正方形，这样你就可以为每一个用户快速地生成 Token，一直到达到工厂的极限为止。但是，没有任何工厂能够做到这一点。所以，它可能是一条曲线。你的目标是最大化曲线下面的面积，也就是 X 和 Y 的乘积。你向外扩展得越多，通常就意味着你正在建造的工厂越好。

事实证明，对于整个工厂的每秒 Token 数，以及响应时间的每秒 Token 数而言，其中一个需要巨大的计算量，而另一个维度则需要巨大的带宽和计算量。所以，这是一个非常难以解决的问题。一个比较好的解决思路是，你应该拥有大量的 flops、大量的带宽、大量的内存，大量的各种资源。这是最好的出发点，这也是为什么这是一台如此出色的计算机的原因。你从尽可能多的 flops、尽可能多的内存、尽可能多的带宽开始，当然，还有最好的架构、最高的能效，而且你必须拥有一个编程模型，能够让你运行各种软件，所有这些都非常困难，这样你才能实现最终的目标。现在，让我们来看一下这个演示，让大家对我们正在讨论的内容有一个更直观的感受，请播放视频。

传统的大语言模型具备基础知识，而推理模型则利用思维 Token来解决复杂的问题。这里有一个例子，要求在满足特定约束条件——比如遵循传统、考虑拍照角度以及处理家庭成员间的矛盾——下来为一个婚礼宴会安排座位。传统的 LLM 可以在 500 个 Token 内迅速给出答案，但可能会出错。而推理模型则需要思考超过 8000 个 Token 才能得出正确答案。这就好比需要一位牧师来维持现场秩序一样。

各位，大家都知道，如果你要为一个 300 人的婚礼安排座位，想找到一个完美的，或者说最佳的方案，这事儿通常只有 AI 或者新娘的母亲才能搞定。合作模式 (co-op) 在这种情况下是行不通的。大家可以看到，我们给模型提出了一个需要推理的问题。R1 开始运行，它进行各种推理，尝试不同的方案，然后回过头来检验自己的答案，判断自己做得对不对。与此同时，上一代的大语言模型采用的是单次生成的方式，只用了 439 个 Token。它速度是挺快，看起来也挺有效，但结果却是错的。这 439 个 Token 就白白浪费掉了。另一方面，如果要对这个问题进行充分的推理——实际上这还是一个相对简单的问题，如果我们加入更多更复杂的变量，那推理的难度可就大大增加了。最终，推理模型使用了将近 9000 个 Token，而且由于模型本身的复杂性，计算量也更大了。这是一个方面。

在给大家展示具体结果之前，我先来解释一下其他方面。对于这个问题的答案，咱们来看一下 Blackwell 系统，以及现在已经规模化的 NVLink 72。首先，我们需要用到这个模型。这个模型可不小，比如说 R1 吧，大家可能觉得它小，但实际上它有 6800 亿个参数。而下一代的模型，参数可能会达到数万亿。要解决这个问题，办法就是把这数万亿的参数，或者说整个模型的工作负载，给它分散到整个 GPU 系统里去。可以采用张量并行，把模型的某一层放到多个 GPU 上去跑；也可以采用管道并行，把整个流程中的一部分切出来，放到多个 GPU 上去；还可以采用专家并行，把不同的专家模型部署到不同的 GPU 上。这三种并行方式——管道并行、张量并行和专家并行——组合起来的数量非常庞大。而根据具体的模型、工作负载和实际情况，我们需要灵活地调整计算机的配置，来达到最大的吞吐量。

有时候，我们需要优化来获得极低的延迟，有时候呢，我们需要优化吞吐量。这就需要用到一些动态批处理的技术，以及其他各种用来做批处理和聚合工作的技术。所以说，这些 AI 工厂的软件，或者说操作系统，那是相当复杂的。这里有一个非常重要的观察结果，像 NVLink72 这样的同构架构，它有一个巨大的优势，那就是每一个 GPU 都可以执行我刚才说的所有这些操作。我们观察到，这些推理模型在计算的过程中会经历好几个不同的阶段。其中一个阶段就是思考。 在思考的阶段，模型不会产生大量的 Token，它产生的 Token 可能是给自己用的。 模型在思考，可能是在阅读，在消化信息。这些信息可能是一个 PDF 文件，可能是一个网站，甚至可能是一段视频，模型以超线性的速度把这些信息都给吸收进来。

然后，模型把所有这些信息汇总起来，形成一个答案，或者说一个计划好的答案。所以说， 这种信息消化和上下文处理的过程需要大量的浮点运算。接下来的阶段叫做解码 (decode)。我们把第一部分叫做预填充。解码阶段同样需要浮点运算， 但更重要的是，它需要极高的带宽。如果一个模型有数万亿个参数，那么很容易就能算出来，它每秒需要好几个 TB 的带宽。我之前提到过每秒 576 TB，仅仅是从 HBM 显存里头把模型读出来，然后生成一个 Token，就需要每秒好几个 TB 的带宽。为什么每次只生成一个 Token 呢？这是因为这些大语言模型是在预测下一个 Token。这就是为什么我们说“下一个 Token”，它不是预测每一个 Token，它是在预测下一个 Token。

现在我们有各种各样的新技术，比如说推测解码等等，可以加速这个过程。但归根结底，模型还是在预测下一个 Token。模型会读取整个模型和上下文（我们把它叫做 KV 缓存，KV cache），然后生成一个 Token。接下来，模型把这个 Token 再放回去考虑，生成下一个 Token，就这么循环往复。每一次循环，模型都需要读取数万亿个参数，生成一个 Token；再读取数万亿个参数，生成另一个 Token；就这么不断地重复。在刚才的演示里，我们生成了 8600 个 Token。

黄仁勋3万字完整精校实录："思考型token"爆发，AI infra即将巨变

正文

请到「今天看啥」查看全文