NVIDIA的CEO Jensen Huang在节目中分享了他对未来十年的展望,包括AI在科学研究、应用科学、数字生物学、气候科学等领域的发展,以及AI如何改变人们的生活和工作方式。他强调了AI的创新能力,认为AI将无处不在,并赋予人类更多的能力。他还提到了NVIDIA在Omniverse和Cosmos上的工作,以及AI如何帮助科学家预测未来。Jensen Huang还强调了提高能源效率的重要性,并认为未来的计算将更加高效和可持续。最后,他鼓励每个人学习如何与AI互动,并思考如何利用AI来提升自己的工作和能力。
Jensen Huang认为,过去的十年主要是关于AI的科学研究,而接下来的十年,除了继续科学研究外,更重要的是AI的应用科学。他认为AI将无处不在,并赋予人类更多的能力。
Jensen Huang介绍了NVIDIA在Omniverse和Cosmos上的工作,这些工具帮助训练机器人和物理系统,使AI能够理解和预测未来的物理世界。
Jensen Huang强调了提高能源效率的重要性,认为未来的计算将更加高效和可持续,这是实现技术进步的根本。
Jensen Huang认为,AI将改变人们的生活和工作方式,使许多人能够完成以前不可能完成的任务。他鼓励每个人学习如何与AI互动,并思考如何利用AI来提升自己的工作和能力。
Jensen Huang展望了未来的计算领域,包括数字生物学、气候科学等领域的革新,并认为NVIDIA将在这些领域发挥重要作用。
图片来源:
Cleo Abram
Z Highlights
-
无论我们追求什么,首先必须有核心信念,必须从最基本的原则出发进行推理,无论基于什么,都要从第一性原理出发进行思考。
-
过去
10
年主要是关于
AI
的科学研究,而接下来的
10
年,除了继续进行
AI
的基础科学研究外,更重要的是
AI
的应用科学。
-
第一个核心信念是我们最初关于加速计算的讨论,即并行计算与通用计算的区别;第二个核心信念是意识到这些深度学习网络(
DNN
)。
-
归根结底,
一切都取决于在有限的能源下你能完成多少计算工作,这就是物理限制。因此,提高能源效率成为了首要任务。
在过去几年中,
NVIDIA
已迅速发展成为全球最有价值的公司之一。这是因为从
90
年代开始,
CEO
黄仁勋与他的公司引领了计算机工作方式的根本性转变,现在释放了技术潜力的爆炸式增长,最具未来感的技术中的大部分都依赖于
NVIDIA
设计的新芯片和软件。本文为主持人
Cleo Abram
的《
Huge If True
》节目访谈实录,本次采访于
2025
年
1
月
7
日在拉斯维加斯的
CES
上录制。
回望来路:今天的
NVIDIA
因何诞生
Cleo Abram
:
我已经为这次采访准备了好几个月,期间与您的许多团队成员进行了深入交流。但我并不是一名工程师,我的目标是帮助观众看到您所描绘的未来。
所以我将询问三个方面。第一个是,我们是如何走到这里的?是什么关键的洞察导致了我们现在所处的这个计算领域的根本性变化?第二个是现在到底发生了什么?已有的洞察是如何引导我们进入这个充满变动、似乎一切都在同时发生的世界的?第三个是,您对未来的愿景是什么?
为了讨论我们目前所处的这个
AI
时代,我认为我们需要回顾一下
90
年代的视频游戏。当时,我知道游戏开发者希望创造更逼真的图像,但硬件无法跟上所需的数学运算能力,
NVIDIA
提出了一个解决方案,这不仅改变了游戏,也改变了计算本身。你能带我们回到那个时期,解释当时发生了什么,以及是什么洞察促使你和
NVIDIA
团队创造了第一个现代
GPU
吗?
Jensen Huang
:
在
90
年代初,当我们开发第一个现代
GPU
时,我们观察到在一个软件程序中,里面只有几行代码。也许
10%
的代码完成了
99%
的处理,而那
99%
的处理是可以并行执行的,然而剩下的
90%
的代码必须按顺序执行。
结果证明,完美的计算机是能够同时进行顺序处理和并行处理的,而不仅仅是其中一种,这是一个很重要的观察。于是我们开始建立一家公司,来解决普通计算机无法解决的计算问题,这实际上就是
NVIDIA
的起点。
图片来源:
Cleo Abram
Cleo Abram
:
我最喜欢的一个能展示为什么
CPU
和
GPU
如此重要的视频是
NVIDIA YouTube
频道
15
年前的,在视频中,
Mythbusters
使用一个小机器人一颗颗地发射彩弹,来展示
CPU
上的顺序处理,也就是一次解决一个问题。但接着他们推出了一个巨大的机器人,一次性射出所有彩弹,同时解决多个问题,展示了
GPU
上的并行处理,
NVIDIA
为视频游戏提供了所有这些新功能。为什么首先选择了游戏?
Jensen Huang
:
视频游戏需要并行处理处理
3D
图形。我们选择视频游戏,首先是因为我们喜欢这个应用,谁不想去虚拟世界呢?
我们根据观察得出的结论是视频游戏有潜力成为有史以来最大的娱乐市场,结果证明这个观察是对的。市场体量大很重要,基于技术的复杂性,如果有一个很大的市场,我们的研发预算就会很多,由此推动新技术的创造,正是技术与市场之间的良性循环,推动
NVIDIA
成为全球最重要的科技公司之一。
Cleo Abram
:
我听你说过
GPU
是一台时光机。能详细解释一下吗?
Jensen Huang
:
GPU
就像一台时光机,因为它能让你更早地看到未来。一位量子化学科学家对我说过最让我感动的一句话,他说:
“Jensen
,得益于
NVIDIA
的成果,我可以在我的有生之年完成我一生的研究。
”
这就是时间旅行,他能够在自己的有生之年完成原本超越他一生范围的工作,是因为
GPU
让应用程序运行得更快了。
GPU
也能让人看到未来。例如,当你在进行天气预报时,你其实是看到未来;当你在模拟虚拟城市,模拟虚拟交通,模拟我们的自动驾驶汽车在那个虚拟城市中行驶时,我们就是在进行时间旅行。
Cleo Abram
:并行处理首先在游戏领域取得了突破。它让我们能够在计算机中创造出以前无法实现的世界。游戏中运用并行处理解锁出的强大计算能力,是
GPU
第一个令人惊叹的应用场景。
此后,人们开始在许多不同的行业中使用这种计算能力,比如那个量子化学研究员的案例。你提到他在运行分子模拟时,使用
NVIDIA
的
GPU
进行并行处理,速度比他之前使用的基于
CPU
的超级计算机要快得多,这真的在革新其他各个行业。
据我了解,在
2000
年代初,你意识到这一点,发现实现这一目标其实有点困难,因为那位研究员必须
“
欺骗
”GPU
,让它以为这是一个图形处理问题。你们做了一些研究,所以你们创造了一种让这一切变得更简单的方法
——
一个叫做
CUDA
的平台。它允许程序员使用他们已经熟悉的编程语言(比如
C
语言)来告诉
GPU
该做什么,这非常重要,因为它让更多人更容易地使用强大的计算能力。你能解释一下是什么样的愿景促使你们创造
CUDA
的吗?
图片来源:
Cleo Abram
Jensen Huang
:
部分是因为研究人员的发现,部分是来自内部的灵感,还有部分是为了解决一个问题。
很多有趣的想法就是在这样的
“
混合体
”
中诞生的,其中一些是基于愿景和灵感,另一些则可能是出于迫切的需求。
最初在外部出现将
GPU
用于并行处理的想法,是来自医学成像领域的一些研究。麻省总医院的几位研究人员在使用我们的
GPU
进行
CT
重建,利用了我们的图形处理器来完成这项任务,这给了我们启发。
我们公司内部也在试图解决一个问题:当你想要为视频游戏创造虚拟世界时,你希望这个世界既美观又充满动态效果,水应该像水一样流动,爆炸应该像真实的爆炸一样,所以你需要处理粒子物理、流体动力学,如果只能处理计算机图形,这将非常困难。因此,我们有充分的理由去推动这项技术。同时,研究人员也在尝试使用我们的
GPU
进行通用加速计算。因此,多个因素在这个
“
混合体
”
中汇聚。当时机成熟时,我们决定正式推进这个想法,于是创造了
CUDA
。
从根本上讲,我之所以坚信
CUDA
会成功,并且让整个公司全力支持它,是因为我们的
GPU
将成为全球出货量最大的并行处理器,毕竟视频游戏市场非常庞大,这种架构有很大的机会被广泛应用于不同领域。
Cleo Abram
:
在我看来,创造
CUDA
是一件极具乐观主义色彩的事情。你们当时的想法是:如果创造出一种方式,让更多人可以使用更强大的计算能力,由此或许人们能够创造出不可思议的东西,而这确实成真了。
2012
年,三位研究人员提交了一项参赛作品,参加一个著名的竞赛,目标是创建能够识别图像并为其分类的计算机系统。他们的作品在比赛中大获全胜,错误率远低于其他参赛者,令人难以置信,震惊了所有人。这个系统叫做
AlexNet
,它是一种被称为神经网络的人工智能技术。
图片来源:
Cleo Abram
据我了解,它之所以表现如此出色,部分原因在于他们使用了大量的数据来训练并在
NVIDIA
的
GPU
上完成了这一切。
突然之间,
GPU
不仅仅是让计算机变得更快、更高效的工具,它们成为全新计算方式的引擎。我们从一步步指令计算机的方式,转向通过展示大量示例来训练计算机自主学习。
2012
年的这个时刻真正开启了一场深刻的变革,也就是我们现在所看到的人工智能革命。
你能从你的角度描述一下那个时刻是什么样的吗?你当时预见到这对人们的未来意味着什么?
Jensen Huang
:
当你创造像
CUDA
这样的新事物时,即使你构建好了它,人们可能也不会使用它,这始终是怀疑者的观点。
然而,乐观者会说:但如果你不去构建它,人们就永远不会使用它,这通常是我看待世界的方式。
我们必须凭直觉推理它为什么会非常有用。事实上,在
2012
年,多伦多大学的
Ilya Sutskever
、
Alex Krizhevsky
和
Jeff Hinton
,他们所在的实验室找到了
GeForce GTX 580
,因为他们了解到
CUDA
,认为它可以用作训练
AlexNet
的并行处理器。所以,我们认为
GeForce
可以成为将这种并行架构推向世界的载体,研究人员们最终会发现它,这是一种基于希望的策略,但也是理性化的希望。
真正引起我们注意的是,当时我们公司内部在尝试解决的计算机视觉问题,并且希望
CUDA
能成为一个优秀的计算机视觉处理器。
然而,我们在早期遇到了很多挫折,
CUDA
在处理计算机视觉方面存在不少困难。就在这时,我们发现了
AlexNet
,这是一种全新的算法,它在计算机视觉能力上取得了巨大的飞跃。当我们觉察这一点时,一方面是出于兴趣,另一方面也是因为我们自己正面临类似的挑战,我们非常想看看它是如何实现的。
当我们仔细研究
AlexNet
时,我们受到了很大的启发,我们问自己:
AlexNet
到底能发展到什么程度?如果它在计算机视觉领域能够做到这些,它还能做到哪些?如果它能够达到我们预期的极限,又能够解决哪些问题?这对计算机行业意味着什么?对计算机架构又意味着什么?
我们合理推断,如果机器学习,尤其是这种深度学习架构能够扩展,那么绝大多数机器学习问题都可以通过深度神经网络来表示,机器学习可以解决的问题领域非常广泛,甚至有可能彻底重塑整个计算机行业,这促使我们重新设计整个计算体系,这就是
DGX
的由来。
所有这一切的背后,都是基于我们当时的观察:我们必须逐层、逐步地重新发明整个计算堆栈。自从
IBM
的
System 360
在
65
年前引入现代通用计算以来,我们彻底重新定义了计算的方式。
Cleo Abram
:
所以,把这当作一个完整的故事来思考:并行处理重新定义了现代游戏,彻底改变了整个行业;随后这种计算方式开始被应用到不同的行业;
NVIDIA
通过构建
CUDA
进行投资,推动了这种计算方式的发展;之后
CUDA
和
GPU
的使用让神经网络和机器学习实现了质的飞跃,开启了一场革命,这场革命直到今天仍在不断深化。
凝视现在:什么正在发生
Jensen Huang
:
突然之间,计算机视觉的问题被解决了;语音识别的问题被解决了;语言理解的问题被解决了
……
这些与智能相关的重大难题,过去我们无从下手但渴望解决,如今它们一个接一个地在短短几年内被攻克,令人难以置信。
Cleo Abram
:
你在
2012
年看到了这一点,你展望未来,相信这将是你将要生活的时代,
NVIDIA
为此下注,进行了高风险的投资,作为一个外行人,我的感觉是,走到今天花了很长时间。
所以我的问题是:既然
AlexNet
是在
2012
年诞生的,而现在的观众大约在十年后才看到和听到更多关于
AI
和
NVIDIA
的故事,为什么这中间花了十年?
既然你们当初下了这样的赌注,过去十年的中段对你来说是什么感觉?
Jensen Huang
:
大概就像今天的感觉。对我来说,总会有一些问题存在,总会有让人感到不耐烦的原因,也总有一些值得高兴的地方,总有很多理由继续前进。
但我想说,无论我们追求什么,首先你必须有核心信念,必须从最基本的原则出发进行推理。无论基于什么,都要从第一性原理出发进行思考。
理想情况下,你的推理应该基于物理学原理,或者对行业的深刻理解,或者对科学的深入了解。
在某个时刻,你必须去相信一些东西,如果这些原则没有改变,假设也没有改变,那么你就没有理由改变你的核心信念,在这个过程中,总会有一些成功的证据,告诉你正走在正确的道路上。有时候,你可能会很长时间看不到成功的证据,就需要稍微调整一下方向,最终证据会出现,如果你觉得自己走在正确的道路上,那就继续前进。
关于我们为什么能坚持这么久,答案是没有理由不坚持,因为我们相信它。我相信
NVIDIA
已经超过
30
年了,我现在仍然每天都在工作,没有任何根本性的理由让我改变我的信念体系。
我坚信,我们在革命性地改变计算领域的工作,今天依然如此,甚至比以前更加真实。因此,我们会一直坚持下去,除非有明确的理由让我们停止。当然,在这个过程中也会有非常艰难的时刻,当你投资于某个项目,而没有人相信它,它还在花费着大量资金,投资者或者其他人可能希望你保持盈利,或者提高股价,但你必须相信自己的未来,必须投资于自己,我们对此深信不疑。我们在真正看到成效之前,已经投资了数百亿美元。这十年很漫长,但沿途也充满了乐趣。
Cleo Abram
:你如何总结这些核心信念?
是什么让你不仅能坚持走过这十年,还能继续做现在的事情,甚至为未来几十年下注?
J
ensen H
uang
:第一个核心信念是我们最初关于加速计算的讨论,即并行计算与通用计算的区别。
我们将两个处理器组合在一起,进行加速计算。我至今仍坚信这一点。
图片来源:
Cleo Abram
第二个核心信念是意识到这些深度学习网络(
DNN
),也就是
2012
年进入公众视野的深度神经网络,具备从不同类型数据中学习模式和关系的能力。
如果网络越大、越深,它就能学习到更多细致入微的特征,让它们变得更大、更深或更广也变得更容易。因此,这种架构的可扩展性在经验上是被证实的。模型规模和数据规模越大,就能学习到更多的知识,这也是经验证实的事实。既然如此,那它的极限在哪里?除非存在物理限制、架构限制或数学限制,但至今我们从未发现这些限制。因此,我们相信它可以无限扩展。
图片来源:
Cleo Abram
接下来唯一的问题是:我们能从数据中学到什么?
我们能从经验中学到什么?数据本质上是人类经验的数字化版本。
那么我们能学到什么
——
显然可以通过图像学习物体识别;可以通过声音学习语音识别;甚至可以通过大量文本学习语言、词汇、语法和句法结构。
我们现在已经证明,
AI
或深度学习具有学习几乎所有数据形式的能力,并且可以在不同数据形式之间进行转换。
这意味着什么?你可以实现文本到文本,例如摘要生成或语言翻译;实现文本到图像,这就是图像生成;实现图像到文本,比如图像字幕生成;甚至可以实现氨基酸序列到蛋白质结构的预测。未来,你甚至可以做到蛋白质到文字,比如解释某个蛋白质的功能,或者找出具有特定特性的蛋白质,帮助识别药物靶点。所有这些问题都即将被解决。
你可以实现文字到视频的转换。那么,为什么不能将文字转化为机器人执行的动作指令呢?从计算机的角度来看,这两者之间并没有本质的区别。这为我们打开了一个全新的机遇和问题领域,激发了我们的无限热情,我们感觉自己正站在一次巨大变革的边缘。
Cleo Abram
:
当我思考未来
10
年时,与过去
10
年不同的是,尽管我们已经经历了很多变化,但我已经无法预测自己将如何使用当前正在开发的技术。
Jensen Huang
:我认为你之所以会有这样的感觉,是因为过去
10
年主要是关于
AI
的科学研究,而接下来的
10
年,除了继续进行
AI
的基础科学研究外,更重要的是
AI
的应用科学。应用研究将聚焦于:如何将
AI
应用于数字生物学?如何将
AI
应用于气候技术?如何将
AI
应用于农业、渔业、机器人技术、交通运输、物流优化?如何将
AI
应用于教育、播客制作?
Cleo Abram
:
我们刚刚讨论的这场计算领域的根本性变革,如何真正改变他们的生活体验,如何让他们实际使用基于这些技术的产品。其中一个我听你多次提到,且我特别感兴趣的是物理
AI
,或者说机器人。不仅仅指人形机器人,还包括自动驾驶汽车、智能建筑、自主仓库、自动割草机等等。
据我了解,我们即将看到这些机器人能力的巨大飞跃,因为我们正在改变训练它们的方式。直到最近,训练机器人通常有两种方法:要么在现实世界中进行训练,但这会导致机器人损坏或磨损;要么依赖于有限的数据来源,比如使用动作捕捉服的人类数据。但这意味着机器人无法获得足够多的示例来快速学习。
然而,现在我们开始在数字世界中训练机器人,这意味着每天可以进行更多次重复训练,涵盖更多种不同的环境条件,学习速度也变得更快。
因此,我们现在可能正处于机器人领域的
“
大爆炸
”
时刻,而
NVIDIA
正在打造一系列工具来实现这一目标,你们有
Omniverse
,我的理解是它是一个
3D
虚拟世界,帮助训练机器人系统,让它们无需在物理世界中进行训练。你们最近还发布了
Cosmos
,它让这个
3D
世界更加逼真。比如,当我们训练机器人识别桌子时,
Cosmos
可以模拟不同的光照条件、一天中的不同时间,以及多种不同的场景体验,让机器人从
Omniverse
中获得更多的学习机会。
图片来源:
Cleo Abram
作为一个从小就喜欢《星际迷航》和艾萨克
·
阿西莫夫作品、梦想未来拥有机器人的人,我们如何从今天的机器人发展到你所设想的未来世界?
Jensen Huang
:
可以用语言模型,比如
ChatGPT
,来类比解释
Omniverse
和
Cosmos
的工作原理。首先,当
ChatGPT
刚问世时,它的表现令人惊艳,能够根据提示生成文本。但尽管如此强大,它仍然会出现
“
幻觉
”
(
hallucination
)现象:当生成的文本过长,或讨论它不了解的主题时,尽管回答看似合理,但实际上可能偏离事实。为了改进这种情况,下一代的模型引入了上下文约束,比如你可以上传
PDF
文件,模型基于
PDF
的内容生成答案,将其作为
“
事实依据
”
(
ground truth
),或者可以通过联网搜索,将搜索结果作为参考,从而生成更准确的回答。
所以,第一步是生成式
AI
,而第二步是基于事实的模型,回到物理世界。
如果我们想让机器人在现实中变得聪明,就需要构建一个类似的
“
基础模型
”
,就像
ChatGPT
背后的语言基础模型一样。
对于机器人来说,它必须理解:重力、摩擦力、惯性等物理规律;几何和空间感知(物体永久性);因果关系,比如我推倒一个物体,它会倒下。这种对物理世界的
“
常识
”
必须被编码进一个世界基础模型(
World Foundation Model
),让
AI
具备对现实世界的直观理解。
这正是我们用
Cosmos
所做的事情,我们创造了一个
“
世界模型
”
,就像
ChatGPT
是语言模型一样,
Cosmos
是关于物理世界的模型
。
接下来,我们要像给
ChatGPT
添加
PDF
或搜索数据一样,为
Cosmos
提供
“
事实依据
”
,这个依据就是物理仿真(
Physical Simulation
)。
Omniverse
正是基于物理仿真的平台,它采用的是牛顿力学等已知的数学原理,使用真实的物理定律来模拟现实世界。
因此,
Omniverse
是一个模拟器(
Simulator
),而我们用它来为
Cosmos
提供
“
现实基础
”
,让
AI
能够在物理上
“
接地气
”
。
通过这种组合,我们可以生成无限多的虚拟场景,模拟未来的各种可能性,但这些模拟都是基于真实的物理规律。
举个例子,假设你在工厂里训练一个机器人,让它学习所有可能的路线。传统方法需要机器人在现实中一个个地走,可能需要数天时间,还会增加磨损。现在我们可以在
Omniverse
中用数字化的方式快速模拟所有路线,节省大量时间,且不会损坏设备,同时还能模拟各种复杂场景,比如黑暗环境、道路障碍、紧急情况等,帮助机器人在虚拟世界中快速积累经验。
Cleo Abram
:
未来
10
年,人与这项技术的互动会发生怎样的变化?
Jensen Huang
:未来,所有会移动的东西都将实现自动化,成为机器人,而且这个未来即将到来。
想象一下,人工推着割草机会显得过时,除非人们纯粹觉得好玩,否则完全没有必要手动操作;每一辆车都将成为自动驾驶汽车;类人机器人(
Humanoid Robots
)所需的技术即将成熟,很快也会普及。所以,无论是自动驾驶汽车、智能建筑、自动化仓库、自动割草机,还是服务型机器人,
只要是会移动的事物,最终都会实现自动化。
他们将在
Omniverse Cosmos
中学习如何成为机器人,并生成所有这些符合物理规律的未来场景,机器人将从中学习,然后进入物理世界,而这一切与虚拟世界缩膜你的完全相同。
一个被机器人包围的未来是必然会到来的。
我非常兴奋能拥有属于我自己的
R2-D2
,当然,
R2-D2
不会再是那个圆滚滚的罐头,它会有不同的物理形态,但我的
R2
会一直陪伴着我,有时它会在我的智能眼镜里,有时它会在我的手机里,有时它会在我的电脑里,它也会在我的车里,所以
R2
无时无刻不在我身边,当回到家时,家里会有一个我留下的实体版
R2
,无论那个版本是什么样子,都可以和
R2
互动
。所以我认为,在未来拥有属于我们自己的
R2-D2
,陪伴我们一生,和我们一起成长,是确定无疑的事情了。
Cleo Abram
:
我认为很多新闻媒体在谈论这样的未来时,他们关注的焦点是可能出错的地方。
Jensen Huang
:
这很合理。我们应该多讨论可能出错的地方,才能防止它们真的出错。
Cleo Abram
:
探讨那些重大的挑战,以便我们能够克服它们。当你担心这个未来时,你会思考哪些方面的问题?
Jensen Huang
:
有很多大家都会讨论的问题。比如偏见、有害内容,或者所谓的
“
幻觉
”——AI
在自己不了解的领域里,仍然能自信满满地发表观点,结果就是我们可能会依赖这些信息。这其实就是生成虚假信息的一种形式,比如假新闻、假图像,或者其他类似的东西。当然,还有冒充问题
。
AI
在冒充人类这方面做得非常出色,甚至能够非常精准地模仿特定的人。所以我们需要关注的问题的范围是相当明确的,也已经有很多人在致力于解决这些问题。
一些与
AI
安全相关的内容需要深入的研究。
AI
本意是想做正确的事情,但它只是没有正确地执行,结果伤害到某个个体。
比如自动驾驶汽车,它本来想安全、规范地行驶,但不知怎么的,传感器出现了故障,或者它没有正确地检测到某个物体,不管是什么原因,它都出错了。因此,我们需要大量的研究工作,确保
AI
产品能够正常运行,从而维护
AI
的安全性。
最后,如果
AI
想要做正确的事情,但系统本身却失败了怎么办?也就是说,
AI
本来想阻止某件事的发生,但偏偏在它要执行的那一刻,机器出故障了。这其实和飞机上的飞行计算机没有太大区别,飞机内部会有三套冗余的系统,自动驾驶系统内部也会有三重冗余。飞机内部还有两名飞行员,再加上空中交通管制以及其他飞行员相互监督。
因此,
AI
的安全系统必须设计成一个
“
社区架构
”
,确保这些
AI
系统:第一,能够正常工作;第二,当它们无法正常工作时,不会对人类造成伤害;第三,周围有足够多的安全和保障系统,以确保
AI
的安全性。因此,关于
AI
安全的讨论范围是非常广泛的。
我们必须像工程师一样,逐一拆解问题,再重新构建解决方案。
Cleo Abram
:我们现在所处的这个时代,最令人难以置信的一点是,我们不再受限于过去基于
CPU
和串行处理的技术瓶颈。这不仅是拥有了一种全新的计算方式,还找到了持续改进的方法。并行处理在物理机制上与
CPU
的改进方式不同。
在你目前的思考中,我们当前世界面临的科学或技术限制是什么?
Jensen Huang
:归根结底, 一切都取决于在有限的能源下你能完成多少计算工作,这就是物理限制。因此,提高能源效率成为了我们的首要任务。
关于信息传输、比特翻转和比特传输的物理定律,完成这些操作所需的能量,决定了我们能够完成多少工作。我们所拥有的能源数量,限制了我们所能完成的任务。目前,我们距离真正阻碍技术进步的根本性限制还很远。同时,我们正在努力构建更好、更节能的计算机。这台计算机,我带来的这个版本只是个原型,算是一个模型。第一台真正的版本是
DGX-1
,我在
2016
年交付给了
OpenAI
。那台机器的价格是
25
万美元,它所需的能源比现在这个版本高出
1
万倍,而这个版本的性能却是它的
6
倍。
我们正处在一个全新的时代,而这一切从
2016
年开始,短短八年后,我们将计算的能源效率提升了
10,000
倍。想象一下,如果我们在其他领域也实现
10,000
倍的提升这样的提升:汽车的能源效率,电灯泡的能源效率。现在,一个
100
瓦的灯泡,如果效率提高
10,000
倍,它只需要消耗
0.01
瓦就能产生同样的亮度。
在计算领域,特别是
AI
计算方面,我们所取得的能源效率进步是不可思议的。因为我们希望创造出更智能的系统,并且使用更多的计算来让系统变得更智能。
Cleo Abram
:
在准备这次采访时,我和很多工程师朋友聊过,他们特别希望我问你这个问题。
CUDA
展示了提升可访问性和抽象层级的价值,让更多人能够使用强大的计算能力,随着技术应用越来越具体,比如在
AI
领域的
Transformer
模型,(
Transformer
是一种非常流行的
AI
架构,现在被广泛应用于你们见过的许多工具中。它之所以受欢迎是因为其结构能够帮助模型关注关键信息,从而输出更好的结果)
NVIDIA
可以打造出完全适配某一种
AI
模型的芯片。但如果这么做,就会降低芯片处理其他任务的能力。
随着这些特定结构或架构越来越流行,在硬件设计领域存在一种争论:到底应该选择将这些技术
“
固化
”
到芯片中,专门为某一任务优化?还是应该保持硬件的通用性?
所以我的问题是:你如何在这些选择中下注?你如何权衡是打造一辆
“
可以去任何地方的汽车
”
,还是优化成一列
“
只能在
A
到
B
之间高效运行的列车
”
?而你所做的选择,就会牵涉到巨大的利益,
Jensen Huang
:这个问题最终又回到了原点,那就是你的核心信念是什么?要么相信
Transformer
是
AI
领域的终极算法架构,以后再也不会有新的架构被发现;要么相信
Transformer
只是
AI
发展的一个
“
跳板
”
,未来的架构将会进化成一些我们今天几乎无法辨认的形式,而我们相信后者。
原因很简单,只需要回顾历史,问自己一个问题:在计算机算法、软件、工程和创新的世界里,是否曾经有某一个想法能够长期保持不变?答案是否定的。
这正是计算机最本质的美妙之处:它能够在今天完成一些,
10
年前人们甚至无法想象的任务。如果你在
10
年前,把计算机固定成一个像微波炉一样只能执行单一任务的设备,那么后来出现的各种应用又从何而来?
我们相信创新的丰富性,相信发明的无限可能。我们希望打造出一种架构,让发明家、创新者、软件开发者和
AI
研究人员都能在这片
“
创新的土壤
”
中自由探索,并提出一些令人惊叹的创意。
Transformer
的核心特性是注意力机制(
attention mechanism
)。它的基本思想是,
Transformer
要理解每个单词与其他所有单词之间的含义和关联性。
所以,如果你有
10
个单词,它需要弄清楚这
10
个单词之间的所有关系,但如果你有
10
万个单词,或者你的上下文非常庞大,比如阅读一个
PDF
,至是读取大量的
PDF
,这时候上下文窗口可能会达到百万级
token
,在如此庞大的范围内处理所有信息,几乎是不可能的。为了解决这个问题,人们提出了各种新思路,比如
Flash Attention
、
hierarchical attention
,还有我前几天刚读到的
Wave Attention
。自从
Transformer
问世以来,被发明出来的不同类型的注意力机制的数量非常惊人,所以我认为这种创新会继续下去,因为计算机科学并没有停止,
AI
研究也没有停滞。至少我们还没有放弃,拥有一台能够支持研究、创新和新想法的灵活计算机,从根本上来说是最重要的事情。
Cleo Abram
:
我非常好奇的一点是:你们设计芯片,有公司负责芯片的组装,还有公司专门设计硬件来实现纳米级别的工艺。当你们在设计这些工具时,你们是如何在当前物理条件的限制下考虑设计的?在尝试靠近这些极限时,会重点关注哪些方面?
Jensen Huang
:
即使我们让其他公司制造产品,比如我们的芯片是由台积电(
TSMC
)制造的,我们仍然假设自己需要拥有与台积电一样深厚的专业知识。
我们公司有一批非常擅长半导体物理的专家,以便我们能够直观地了解当前半导体物理的极限在哪里,然后我们会与台积电紧密合作,共同探索这些极限,试图突破它们。因此,这种探索过程是双方一起完成的,在系统工程和冷却系统方面也是同样的做法。
管道设计(
plumbing
)对我们来说非常重要,因为它关系到液体冷却;风扇(
fans
)也非常重要,因为它们涉及到空气冷却。我们在设计这些风扇时,几乎像在进行空气动力学设计,目的是让它们在产生最小噪音的同时,实现最高的空气流通量,所以我们公司有专门的空气动力学工程师。尽管我们不亲自制造这些部件,但我们会设计它们,并且依赖深厚的专业知识,了解他们的制造流程,基于这些知识我们努力推动技术的极限。
走向何处:
NVIDIA
想要创造怎样的未来
Cleo Abram
:
你是一个敢于对未来下赌注的人,而且一次又一次地,你都押对了。我们谈到了
GPU
,谈到了
CUDA
,谈到了你在
AI
领域的大胆投资,自动驾驶汽车、机器人等等,
NVIDIA
现在正在下注的项目是什么?
Jensen Huang
:
最新的一个项目就是我们在
CES
上展示的
Omniverse
和
Cosmos
融合所打造出的一种全新的生成式系统,也就是多元宇宙生成系统,我认为这将在机器人和物理系统的未来中具有深远的重要性。
图片来源:
Cleo Abram
人形机器人(
Human Robots
)相关的工具系统、训练系统和人类演示系统,以及你刚才提到的所有这些内容,我们现在才刚刚起步,未来五年在人形机器人领域将会非常有趣。
NVIDIA
在数字生物学(
Digital Biology
)方面的研究关注于理解分子语言和细胞语言。就像理解物理学和物质世界,
我们希望能理解人体的语言和生物学的语言,如果我们能掌握并进行预测,那么拥有人类数字孪生就具备了可行性,对此我感到非常兴奋。
在气候科学方面的相关探究是以极高的精确度从天气中理解并预测区域气候,比如在你头顶一公里范围内的天气模式,其潜在的影响非常深远。
图片来源:
Cleo Abram