小纪有话说:
不久前,硅谷知名风险投资人
Sarah Guo 以及
Elad Gil 采访了英伟达 CEO 黄仁勋(Jensen Huang)。
黄仁勋认为,英伟达已彻底改变了计算方式,推动了计算边际成本的大幅降低。
他将现代计算描述为一个新的「AI 工厂」,这是一个不再只是存储数据,而是生成 AI 和智能体
的新工业。
过去,数据中心主要用来存储和处理数据,但黄仁勋认为,未来的数据中心将演变为专门生成 AI 内容的「AI 工厂」,其生成的「token」可以重构为各种形式的智能,
这种演变代表了一个全新的产业——AI 工厂,这将成为社会基础设施的重要组成部分,并被广泛应用于各行各业。
此外,黄仁勋认为,未来将出现大量特定于各 SaaS 平台的智能体,这些智能体在特定任务上具备极高的专业性。
例如,Salesforce、SAP 和英伟达的 Omniverse 都会有独特的智能体与各自的工具生态系统协同工作,这些 SaaS 平台并非会被颠覆,相反,它们将成为智能体创新的沃土。
以下为这场对话的主要内容。
来源于公众号”有新Newin“
Sarah Guo:
欢迎回来,仁勋,进入 NVIDIA 30 年之后,展望未来 10 年,你认为还有哪些值得下注的大机会?是否仅仅是扩大规模?在我们现有的架构中,是否面临如何挤出更多计算内存的局限?你关注的重点是什么?
黄仁勋:
嗯,如果我们退一步思考,我们经历了从编程到机器学习的转变,从编写软件工具到创建 AI,这些都在最初设计用于人类编程的 CPU 上运行,而如今则运行在为 AI 编程设计的 GPU 上,基本上就是机器学习。
因此,世界已经改变了我们进行计算的方式。整个技术栈发生了变化。因此,我们能够解决的问题的规模也发生了巨大的变化。
如果你可以在一台 GPU 上并行化软件,就可以为在整个集群上,甚至多个集群或数据中心上并行化打下基础。
我认为我们已经为能够在一个全新的层面上扩大计算规模并开发前所未有的软件做好了准备。
未来 10 年,我们的目标是每年在规模上(而非芯片级别)将性能提升 2~3 倍,从而每年将成本降低 2~3 倍,并将能耗降低 2~3 倍。当你每年都这样做,几年的积累就会非常显著。
因此,我不会感到惊讶,如果像大家所理解的摩尔定律那样——即每两年性能翻倍——我们会走上一条超摩尔定律的曲线。我完全希望我们能够继续实现这一点。
Elad Gil:
你认为是什么推动了这种比摩尔定律更快的速度?我知道摩尔定律是一种自我反思的过程,是一种提出来之后人们就会实施的方向。
黄仁勋:
是的,两个基本技术支柱。一个是 Denard 缩放,另一个是 Carver Mead 的 VLSI 缩放。这两种技术是严谨的方法,但这些方法确实已经到了瓶颈。
因此,我们现在需要一种新的缩放方式。显然,新的缩放方式涉及多种协同设计相关的事物。
除非你可以修改或改变算法来反映系统的架构,或者改变系统以反映新软件的架构,并来回调整,否则你毫无希望。
但如果你能控制这两个方面,你就可以做一些事情,比如从 FP64 转到 FP32,再到 BF16,到 FPA,到 FP4,等等。
所以我认为协同设计是其中的一个关键部分。第二个部分我们称之为全栈。第二个部分是数据中心规模。
除非你能将网络视为一种计算结构,将大量工作推向网络,推向计算结构,进而在非常大规模上进行压缩。这也是我们购买 Melanox 并开始积极整合 InfiniBand 和 NVLink 的原因。
现在看看 NVLink 将要发展到什么程度。计算结构将扩展成一个看似单个不可思议的处理器——一个 GPU。现在,我们有数百个 GPU 一起工作。
我们目前面临的计算挑战中最令人兴奋的之一,当然就是推理时间的扩展,这与以极低延迟生成 token 有关,因为正如你提到的,自我反思的过程会涉及树搜索、连锁思维,可能还会进行一定程度的模拟。
你会反思自己的答案,会自我激发生成文字,而希望在一秒内做出响应。要做到这一点,必须保持极低的延迟。
与此同时,数据中心的目标仍是生产高吞吐量的 token,因为我们希望控制成本、保持高吞吐量、提高回报。
因此,工厂的两个基本要素——低延迟和高吞吐量——彼此相悖。为了创造一个在这两个方面都出色的产品,我们必须去发明一些新的东西,而 NVLink 是我们实现这一目标的方式。
现在你有一个虚拟 GPU,拥有大量计算能力,因为你需要它来提供上下文支持。你需要大量的工作内存,同时还要有极高的带宽用于生成 token。正如我想的那样。
Elad Gil:
与此同时,你也有很多人在构建模型并进行非常显著的优化,比如 David 和我的团队在过去 18 个月里获取的数据表明,GPT-4 等效模型的百万 token 成本基本上下降了 240 倍。因此,在这方面也进行了大规模的优化和压缩。
黄仁勋:
是的,仅在我们工作的这一层上,我们非常关心的是我们栈的生态系统和我们软件的生产力。
人们经常忘记,因为有了 CUDA 的基础,所以在这个坚实的基础上,以上的部分可以随意改变。如果基础不断变化,你就很难在上面建造一座建筑,难以在上面创建任何有趣的事物。
CUDA 使我们得以快速迭代,仅在去年,我们就回头对比了 LLaMA 刚推出时的表现,发现 Hopper 的性能提升了五倍,而算法和上层没有任何变化。
在一年内提升五倍是传统计算方式无法实现的,但已在异构计算中实现。使用这种协同设计方法,我们能够引入各种创新。
Sarah Guo:
你的大客户有多关注其基础设施在大规模训练和推理之间的互换性?
黄仁勋
:
嗯,基础设施现在是解耦的。Sam 刚刚告诉我他最近退役了 Volta。它们有 Pascal、Ampere 等各种不同配置的 Blackwell。部分设计为空气冷却,部分为液体冷却。你的服务需要利用所有这些。
NVIDIA 的优势在于你今天为训练构建的基础设施,明天在推理方面也会表现出色。
我相信大多数 ChatGPT 都是在最近刚训练的相同系统上运行的推理。
因此,你可以在训练系统上进行推理,留下了一条非常出色的基础设施。
你可以对投资的基础设施充满信心,因为 NVIDIA 和整个生态系统将继续优化算法,使你的基础设施在一年内提升五倍。这种发展不会改变。
人们思考基础设施的方式就是这样,即便今天建的是用于训练的,它必须适合训练,我们知道它也会适合推理。推理会是多规模的。
首先,你可以将更大的模型提炼成较小的模型,从而创建用于前沿工作的模型,可以用于合成数据生成、大模型训练小模型、再压缩成更小的模型。
因此,你可以做很多事情,但最终你会有从巨型模型到微小模型的整个模型链。微小模型非常有效,虽然不具备广泛的适应性,但在某一任务上非常出色。
我们将会看到超级人类水平的微小任务可能来自一个微小的模型,也许这不是一个小型语言模型,但可能是微型语言模型,TLMs 或其他。我认为我们会看到各种大小的模型,并希望这条路线是对的。
就像今天的软件一样。在很多方面,人工智能使我们可以更轻松地创建新应用程序,但关于计算的一切几乎保持不变。例如,维护软件的成本依旧高昂。
一旦你创建了软件,你希望它能在尽可能大的安装基数上运行,不希望重复开发同样的软件。很多人仍有这种期望,希望通过工程推进发展。
因此,如果架构允许你今天创建的软件在未来的新硬件上运行得更好,那太棒了,或者你明天创建的 AI 能在一个大的安装基数上运行,那也很好。这种思考软件的方式将不会改变。
Sarah Guo:
变化。NVIDIA 已经逐步扩大对客户的支持规模,从单一芯片到服务器,再到机架甚至 NVL 72。你如何看待这个进展?接下来会怎样?NVIDIA 是否应该提供完整的数据中心?
黄仁勋
:
实际上,我们以构建一切的方式来构建完整的数据中心。如果你在开发软件,你就需要完整形态的计算机。我们不会只是制作 PowerPoint 幻灯片或仅发送芯片,而是构建整个数据中心。
直到我们构建出整个数据中心,才能知道软件是否正常运行;直到构建出整个数据中心,才能知道你的架构是否运行有效,所有预期的效率是否能够实现。这就是为什么在现实中看到某些人的实际性能远低于他们在 PowerPoint 中展示的峰值性能并不罕见。
计算已经不再是以前的样子了。我会说新的计算单元是数据中心,这对我们而言就是要交付的东西,我们就是这么做的。
我们就是以这种方式构建整个系统。然后我们为每种组合构建冷却方式(如空气冷却)、架构(如 x86、Grace)、网络连接(如 Ethernet、InfiniBand、NVLink)等配置。公司目前有五台超级计算机,明年我们将轻松新增五台。
如果你对软件是认真的,你就会构建自己的计算机,如果你对软件是认真的,那么你会构建整套计算机系统,而且我们在规模上构建这一切。
真正有趣的部分是我们在规模上构建并垂直集成,我们进行全栈优化,然后解耦每个部分并销售模块化组件。这种做法的复杂性实在令人震撼。
原因在于我们希望能够将我们的基础设施融入 GCP、AWS、Azure、OCI,它们的控制平面和安全平面各不相同,集群大小的考虑也不同,但我们使它们都能兼容 NVIDIA 的架构,这样它就可以无处不在。
最终的核心想法是,我们希望拥有一个计算平台,开发者可以使用它,在很大程度上是统一的、模块化的,可能会有 10% 的调整以适应不同的基础设施优化需求,但他们构建的任何东西都可以在各处运行。
这是软件开发的一个原则,不应被放弃,我们非常珍视这一点。它使我们的软件工程师能够一次构建,随处运行。
我们认识到软件的投资是最昂贵的,而且测试很容易。看看整个硬件行业的规模,再看看全球各个行业的规模,硬件是万亿级,而行业是百万亿级,这说明了什么。
你构建的软件基本上要维护到你有生之年。我们从未放弃过一块软件,CUDA 之所以被使用,是因为我告诉所有人我们会维护它直到永远。我们是认真的。我们仍在维护。
前几天我看到了一篇评论,提到 NVIDIA SHIELD,我们的 Android TV,这是世界上最好的 Android TV,七年前发布的,它仍然是喜爱电视的人群的首选 Android TV。上周我们刚更新了它的软件,大家还在写新报道。
GeForce 拥有 3 亿全球玩家,我们从未抛弃过其中任何一个。因此,我们的架构在不同领域的兼容性使得我们能够做到这一点。
否则,我们的公司需要的开发团队规模可能会比现在大百倍。这就是我们对这一点的重视,这也带来了开发者的好处。
Elad Gil:
最近令人印象深刻的一个例子是,你们为 X.AI 迅速建成了一个集群。你可以谈谈这个吗?因为在规模和速度上都很惊人。
黄仁勋
:
你知道,这要归功于 Elon。首先,决定做这件事,选址,提供冷却和电力,然后决定建造一个 10 万 GPU 的超级集群,这是同类中最大的一个单元。
然后我们倒推,开始规划他预定的上线日期,几个月前就确定了上线时间。
所有组件、OEM、系统、与他们团队的软件集成、网络仿真,我们预先配置了所有网络,搭建了数字孪生,预配置了所有供应链,布线网络、接线的先期版本等——所有这些都在零号系统上预先测试过。
等到一切到位,所有演练都完成了,集成完成,甚至是大量团队 24 小时不间断地布线,在几周内完成了集群部署。
这确实体现了他的意志力,以及他如何克服那些看似不可能的挑战。这是首次在如此短时间内完成如此规模的计算机,除非两支团队从网络到计算、软件、训练、基础设施、电气工程、软件工程等各方面都通力合作。这确实很棒。
Sarah Guo:
在这个过程中,从工程角度看,有哪些看似最可能阻碍进展的挑战吗?
黄仁勋