专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
EETOP  ·  美光股价大跌! ·  9 小时前  
EETOP  ·  高性能便携式示波器免费试用! ·  昨天  
ZOL中关村在线  ·  新房装修有必要装全屋智能吗? ·  3 天前  
51好读  ›  专栏  ›  六合商业研选

【长期主义】第272期智能说:英伟达GTC 2024大会,黄仁勋主旨演讲全文与投资交流会纪要

六合商业研选  · 公众号  ·  · 2024-03-23 06:30

正文


2024 3 18 日,英伟达 NVIDIA GTC 2024 大会正式开幕,这不仅是一场面向开发者的盛会,更是英伟达创始人黄仁勋独领风骚、引领业界方向的重要舞台。

黄仁勋发表 GTC 2024 主旨演讲《见证 AI 的变革时刻》,发布一系列新产品与技术突破,包括新一代 Blackwell 架构、 B200 GPU 芯片、 GB200 产品、 DGX 超算和 NIM 平台等。这些创新旨在推动 AI 发展,提供更强大计算能力与更高效AI应用部署。黄仁勋还公布人形机器人通用基础模型项目 GR00T ,展示英伟达在机器人领域进展。

此次 GTC 大会,吸引来自气候科技、无线电科学等领域研究人员,探索如何利用 AI 、机器人技术,控制下一代 6G 无线电、自动驾驶汽车等。大会还邀请众多公司代表,他们将运用加速计算解决普通计算机无法应对的难题,应用领域涵盖生命科学、医疗健康、基因组学、零售、物流、制造、工业等。

此次 GTC 大会期间,英伟达举办投资交流会,黄仁勋回答分析师与投资者提问,针对市场关注话题,进行进一步阐释,带来更多精彩观点。

本期长期主义,选择英伟达 GTC 2024 大会,黄仁勋主旨演讲全文与投资交流会纪要, Web3 天空之城、华尔街见闻发布,六合商业研选精校,分享给大家, Enjoy

正文:
全文 42,275
预计阅读 85 分钟

英伟达投资交流会:机器人 ChatGPT 时刻指日可待, Blackwell 不只是芯片还是系统
时间: 2024 3 20
来源: 华尔街见
字数: 16,884

黄仁勋: 早上好。很高兴见到大家。我们活动要怎么进行?

Colette Kress 我们今天有满满一屋子人,感谢大家参加我们长久以来首次举办的线下活动。

我们认为这对你们来说,是一个更好的计划。 我知道你们已提了很多问题,无论是昨晚还是今天早上,我们今天只进行问答环节,而非正式的演讲,这听起来像一个好计划。

黄仁勋: 首先,很高兴见到大家。昨天有很多事情我想说的是,可能我已说过了,我想更好说出来,但我得告诉你们,我以前从未在一个摇滚音乐会上演讲过。我不知道你们怎么样,我从未在一个摇滚音乐会上演讲过。我模拟过它会是什么样,但当我走上舞台时,它仍然让我窒息。无论如何,我尽力了。

在巡回演讲之后,我会做得更好,我确信,我只是需多的练习。有几件事情我想告诉你们,这就是空间计算。如果你有机会看到 Omniverse Vision Pro ,那是令人疯狂的,完全无法理解它有多真实。

我们昨天谈到五件事,我认为第一件确实值得一些解释。我认为第一件,当然是这场新的工业革命,两个转变正在发生。

第一个是从通用计算转向加速计算。

如果你只看通用计算的非凡趋势,它在过去几年中已大幅放缓。

我们知道它已放缓大约 10 年,人们只是不想处理它 10 年,但你真的必须现在处理它。你可以看到,人们延长他们数据中心折旧周期。你可以购买一整套新的通用服务器,它不会显著提高你整个数据中心吞吐量。

你不妨将现有设备使用再延长一段时间,这种趋势永远不会逆转,通用计算已到达尽头。我们将继续需要它,还有很多软件在它上面运行,但很明显我们应该加速我们能加速的一切。

有许多不同行业的工作负载已被加速,有些是我们非常希望进一步加速的大型工作负载。加速计算的好处,是非常清晰的。

数据处理,是我昨天没有花时间讨论的领域之一,我真的想讨论数据处理。英伟达有一套库,在公司做任何事情之前,你必须处理数据。当然,你必须摄取数据,数据量是非凡的,全世界的 zettabytes 数据量每几年就翻倍,但算力并不能。

很多公司已处于数据处理的曲线的错误一侧,如果不转向加速计算,数据处理费用就会不断上升。对许多认识到这一点的公司,如阿斯利康、 Visa 、美国运通、万事达卡等,我们与之合作的如此多的公司,他们已将数据处理成本减少 95% ,基本上是 20 倍的减少。

凭借自家 APIDS 软件库套件,英伟达现在的加速能力大的惊人。 Apache Spark 发明者 Ion Stoica ,他创办伟大的公司 Databricks ,他们是大规模数据云处理公司。这些公司宣布将采用 Databricks 光子引擎,这是他们公司皇冠上的明珠,他们将使用英伟达 GPU 对其进行加速。

加速好处,当然可以为客户节省成本,但非常重要的是,这样你可以可持续进行计算。否则,你就在曲线的错误一侧,永远不会在曲线的正确一侧。

必须发展加速计算,问题是今天,还是明天。

我们如此迅速发展加速算法,以至过去 10 年计算的边际成本已大幅下降,使得基于生成式 AI 的新软件开发方式成为可能。

生成式 AI 需要大量浮点运算,大量的计算。这不是正常的计算量,而是非常大量的计算,现在可以有效的完成。消费者可以使用这种令人难以置信的服务,比如 ChatGPT 。值得注意的是,加速计算已下降,推动计算边际成本如此之远,以至于使得另一种做事方式成为可能。

这种新方式,是计算机用一种叫做数据的原材料编写的软件,你向它施加能量。有一种工具叫做 GPU 超级计算机,出来的是我们享受的标记,当你与 ChatGPT 交互时,你得到的全是 token

现在,那个数据中心不是一个普通的数据中心,它不是你过去所知道的数据中心。原因是,它不是由很多人共享的,它不做很多不同的事情,它是一个全天运行的应用程序,不仅是为了节省钱,它的工作是为了赚钱,它是一个工厂。

这与上一次工业革命的交流发电机没有什么不同,原材料进来的是水。他们向它施加能量,它变成了电。现在的原材料是数据,通过处理进行精炼,然后成为生成式 AI 模型。

输出的是有价值的 token 。我们应用这种基本方法,一些人称之为推理,但实际是 token 生成,去制作软件。这就是生产软件、生产数据、与你互动, ChatGPT 与你互动的方法,这就是与你合作,与你协作的方法。

你可以尽可能扩展这个想法,从 Copilots AI 代理,你可以尽可能扩展这个想法,但基本上是同样的想法。它生成软件,生成 token ,它来自我们称之为 GPU 超级计算机的 AI 生成器。这有道理吗?

这两个想法,一个是我们今天使用的传统数据中心应该被加速,它们正在被加速。它们正在被现代化,越来越多的行业一个接一个的进行。世界上价值数万亿美元的数据中心,最终都将被加速。

问题是,这需要多少年才能完成?

第二种动态,它在 AI 中的好处,是难以置信的,它将进一步加速这一趋势。第二种数据中心,我称之为交流发电机或 AI 生成器或 AI 工厂,这是一种全新的东西。这是一种全新的软件,生成一种全新的宝贵资源,它将由公司、行业、国家等创造,这是一种新的行业。

第二件事,我也谈到我们新平台。

人们对 Blackwell 有很多猜测, Blackwell 不仅是系统核心的芯片,还是一个计算机系统。英伟达所做的不是制造芯片,还构建了一台完整的超级计算机,提供从芯片到系统、到互连、 NVLinks 、网络、软件的全套解决方案。

你能想象有多少电子产品被带入你的家里,你将如何编程它,如果没有多年来创建的所有库,以使其有效,你就带了价值几亿美元的资产进入你的公司。

而且只要它没有被利用,你的钱都会被浪费,而且费用是难以置信的。我们不仅卖芯片,而是帮助客户启动系统,并投入使用,然后与他们一直合作,使它更好的使用,这真的很重要。

这就是英伟达所做的。我们称之为 Blackwell 的平台,有所有这些组件与之相关联,在演示的最后,向你们展示了这些,让你们了解我们所构建的规模。所有这些,我们将其拆解。这是我们所做的非常非常困难的部分。

我们构建了这个垂直整合的东西,但我们以一种可以稍后拆解的方式构建它,让你可以购买它的部分组件,也许你想将它连接到 x86 ,也许你想将它连接到 PCI-Express 总线接口。

也许你想将它连接到一堆光学元件,也许你想要非常大的 NVLink 域,也许你想要更小的 NVLink 域,也许你想使用 ARM 等。这能行得通吗?也许你想使用以太网,以太网对 AI 来说并不好。不管任何人怎么说,事实就是如此。

事实就是事实。以太网对 AI 来说并不友好,这是有道理的,但未来可以让以太网对 AI 变得友好。这就是 Ultra Ethernet 超以太网,大约 3~4 年内, Ultra Ethernet 将会到来,它对 AI 会更友好。

但在那之前,它对 AI 来说并不好。它是一个好网络,但对 AI 来说并不好。我们扩展了以太网,我们给它增加了一些东西,就是 Spectrum-X ,它基本上做了自适应路由、拥塞控制以及噪声隔离。

记住,当你有个健谈的邻居时,它会占用网络流量。 AI 并不关心网络的平均吞吐量,这就是以太网的设计目的,最大平均吞吐量。 AI 只关心最后一个学生什么时候交上他们的部分作业?它关注的是最后一个人。这是一个根本不同的设计点。如果你剔除最优秀与最差的学生,你会得出不同的架构。这有道理吗?

AI 有所有的聚集,只要在算法中查找,变换器算法、专家混合算法,你会看到所有的信息。所有这些 GPU 都必须相互通信,最后一个 GPU 提交答案会拖累所有人,这就是它的工作原理,这就是为什么网络有如此大的影响。

网络能覆盖所有东西吗?能,这会不会损失 10% 、甚至 20% 的利用率?是的。如果计算机是 1 万美元, 10%~20% 的利用率算不了什么。但如果计算机是 20 亿美元?这是整个网络的费用,就是超级计算机的建造成本。

无论如何,我展示了所有这些不同组件的例子,我们公司创建了一个平台与所有相关的软件,所有必要的电子产品,我们与公司和客户合作,将它们整合到他们数据中心,他们的安全可能不同,也许他们的热管理不同,也许他们的管理平面不同,也许他们只想用它来做一件事, AI ,也许他们想租出去,让很多人用它来做不同的 AI

用例如此广泛。也许他们想建立一个本地平台,他们想在它上面运行 VMware 。也许有人只想运行 Kubernetes ,有人想运行 Slurm 。我可以列出所有不同种类的环境,这完全是令人震惊的。

我们考虑了所有这些因素,在相当长一段时间里,我们现在知道如何为每一个人服务。结果,我们可以规模化的构建超级计算机。但基本上英伟达所做的是构建数据中心。我们将其分解成小部分,作为组件出售。人们认为,我们是一家芯片公司。

我们做的第三件事是 NIMs ,一个创新软件。

大型语言模型是一个奇迹, ChatGPT 是一个奇迹,它不仅在其能力方面是一个奇迹,能够以非常高的响应率进行互动,它背后团队也是一个奇迹。这是一个世界级的计算机科学组织,而非一个普通的计算机科学组织。

OpenAI 团队正在从事这项工作,他们是世界级的,是世界上最好的团队之一。为了每个公司都能构建自己的 AI 模型,运营自己的 AI ,部署自己的 AI ,跨多个云运行它,必须有人为他们去做计算机科学。我们决定为每个单一模型,每个单一公司,每个单一配置做这件事,我们决定创建工具、工具包与运营平台,我们将第一次打包大型语言模型。

你可以购买它,来我们网站,下载它,就可以运行它。所有这些模型都是免费的,但有运行成本,当你在企业中部署它时,运行成本是每个 GPU 每年 4,500 美元。

每次使用的成本非常低,非常非常便宜,好处是非常大的。我们称之为英伟达推理微服务 NIMs NIMs 有很多种,比如支持视觉识别、语音识别、文本识别、面部识别。你将拥有机器人关节,你将拥有各种不同类型的 NIMs

使用这些 NIMs 的方式是,从我们网站下载它,根据自身需要微调,给它举例即可。

你说那个问题的回答不是完全正确的,在另一家公司可能是对的,但在我们这里是不对的。我会给你一些例子。正是我们希望它变成的样子,你向它展示你的工作产品。这就是好的答案。

我们系统帮助你策划这个过程,标记所有与 AI 处理相关的数据,所有与数据处理相关的,微调、评估,设置边界,这将使你的 AI 模型更加有效、更加具有针对性。

这让它更具针对性,是因为如果你是一家零售公司,你希望你的 AI 不要随便谈论一些随机的东西。无论问题是什么,它都会回到正题,设置边界的系统是另一个 AI 。我们有所有这些不同的 AI 帮助你定制我们的 NIMs ,你可以创建各种不同的 NIMs

我们为其中许多提供了框架,其中一个非常重要的是理解专有数据,每个公司都有专有数据。我们创建了一个叫做检索器的微服务,它是最先进的,它帮助你把你的数据库,无论是结构化、还是非结构化的图像,或图表或无论是什么,我们都帮助你嵌入。

我们帮助你从这些数据中提取意义。然后我们拿到,它叫做语义,那个语义被嵌入到一个向量中,那个向量现在被索引到新的数据库中,叫做向量数据库,好吗。然后那个向量数据库,之后你可以与它交谈。你说:我有多少哺乳动物。它进去说:看那个,你有一只猫,你有一只狗,你有一只长颈鹿,这就是你库存里的东西,诸如此类。

所有这些都叫做 NeMo ,我们把一个标准的英伟达基础设施 DGX Cloud 上传到所有云中,比如, AWS 中有 DGX Cloud Azure 中有 DGX Cloud GCP OCI 也有。

我们与世界上的公司合作,特别是企业 IT 公司,我们与他们一起创造这些伟大的 AI ,当他们完成时,他们可以在 DGX Cloud 中运行,这意味着我们有效的把客户带到了世界上的云中。

像我们这样的平台公司,将客户带给系统制造商与服务提供商,就像我们把客户带给惠普、戴尔、 IBM 、联想等, Supermicro CoreWeave 等。

如果你是一家平台公司,你就会为生态系统中的每个人创造机会。 DGX Cloud 使我们将所有这些企业应用程序带给服务提供商。我们与戴尔有很好的合作伙伴关系,我们昨天宣布,惠普与其他公司可以在他们系统中使用这些 NIMs

然后我谈到 AI 的下一波,这实际上是关于工业 AI

以美元计,世界上最大的行业是重工业,重工业从未真正从 IT 中受益,他们没有从芯片设计与数字化中受益。

AI 芯片行业已完全数字化,我们技术进步是惊人的。我们称之为芯片设计,而不是芯片发现。

为什么他们称之为药物发现,就像明天可能与昨天不同?生物学如此复杂,变化如此之多,纵向影响如此之大,生命以与晶体管不同的速度进化。因果关系更难监控,它发生在大规模的系统与大规模的时间上,这些都是非常复杂的问题。

工业物理学非常相似。我们终于有能力使用大型语言模型,同样的技术。如果我们可以将蛋白质标记化 Tokenize ,如果我们可以将单词标记化,将语音标记化,将图像标记化,这与语音没有什么不同。

我们可以将所有这些不同的东西标记化,我们可以将物理标记化,然后我们可以理解它的意义,就像我们理解单词的意义一样。

如果我们能理解它的意义,并且我们可以将它与其他模态连接起来,我们就可以发展生成式 AI 。我很快就解释了, 12 年前,我们公司在 ImageNet 上看到了这一点,真正的突破实际上是 12 年前。

我们实际上在看什么? ChatGPT 每个人都应该觉得有趣,我们看到的是一款能模仿人类的计算机软件,它通过分析我们语言来模仿我们语言的产出。

问题来了,如果 AI 能够将词语与说话方式标记化,为什么它就不能模仿我们,并像 ChatGPT 那样进行泛化推广?机器人的 ChatGPT 时刻似乎指日可待,我们希望每个人都能拥抱这一点。

正因如此,我们开发了一种操作系统,促使 AI 能在一个基于物理规律的世界里进行练习,这就是我们的 Omniverse

但要记住, Omniverse 不单是一个工具,也不仅是一个引擎,它是一系列的技术 API ,旨在为他人的工具提供强大支持。

关于这一点,我对与达索的合作感到十分激动。他们正在将自己 3DEXCITE 产品通过 Omniverse API 进行升级。同时,微软也将其 Power BI 产品与之连接。

Rockwell 已将 Omniverse 连接到他们的工具,用于工业自动化,西门子也已连接。这是一堆基于物理的 API ,它产生图像或关节动作,并连接一堆不同的环境。这些 API 旨在增强第三方工具。我非常高兴地看到它的普及,特别是在工业自动化方面。

这就是我们做的五件事。

我超时了,让我非常快进行下一步。

看这个图表,它基本上传达了几件事情。顶端是开发者,英伟达是一个市场制造者,而不是份额争夺者。我们所做的一切,当我们开始做一项技术时,它并不存在。甚至在我们开始研究 3D 电脑游戏时,它们并不存在。

我们必须去创造必要的算法,实时光线追踪技术,直到我们创造它之前,都不存在。所有这些不同的能力,在我们创造它之前都不存在。一旦我们创造了它,就没有可以应用的程序。我们必须去培养开发者,与开发者合作,将我们刚创造的技术整合进去,以便应用程序可以从中受益。

我们从零开始创造 Omniverse ,没有从任何人那里夺走市场份额。现在,我们需要像达索、 Ansys Cadence Rockwell 、西门子这样的开发者共同推进,使其发挥更大作用。

Omniverse 的云 API 形式,使得其更为易用,无论是通过 SDK 还是 API ,我们都为开发者提供便利。我们将 Omniverse 托管在 Azure 云上,这不仅为客户创造价值,也为 Azure 带来机会。

Azure 是基础,即系统提供商。回到过去,系统提供商曾经是 OEMs ,他们现在仍然是,但系统提供商在底部,开发者在顶部,我们在中间发明技术。我们发明的技术,恰好是芯片最后的,软件优先的。没有开发者,就没有芯片需求

英伟达首先是一家算法公司,我们创建这些 SDK ,它们被称为特定领域的库。 SQL 结构化查询语言就是一个 SDK ,英伟达 cuDNN 深度学习 GPU 加速库可能是继 SQL 之后世界上最成功的特定领域库。

没有深度神经网络 DNN ,其他人都无法使用 CUDA DNN 深度神经网络被发明了。

我们有数百个特定领域的库, Omniverse 也是一个例子。这些特定领域的库与软件开发者相结合,当应用程序被创建,并且有需求时,就会为底层基础设施创造机会。

这个经验是,没有软件的创新,就不可能有新市场诞生,这一理念从未改变。你可以制造芯片使软件运行得更好,但你不能在没有软件的情况下创造一个新市场。

英伟达独特之处在于,我们相信我们是唯一一个能够创造自己市场的芯片公司,看看我们正在创造的所有市场,我们通过软件驱动需求,反过来促进芯片发展。这种模式让英伟达不仅成为技术创新者,更成为市场引领者。

这就是为什么我们总是谈论未来,这些是我们正在努力的事情。没有什么比与整个行业合作创造计算机辅助药物设计行业更让我高兴的,不是药物发现行业,而是药物设计行业,我们必须像进行芯片设计那样进行药物设计。

开发者在顶部,我们基础设施在底部。开发者想要简单的东西,他们想确保你的技术性能良好,他们必须解决他们无法以其他方式解决的问题。

对开发者来说最重要的是安装基础,他们不卖硬件,如果没有人有硬件来运行它,他们的软件就不会被使用。

开发者想要的是安装基础,这一道理从刚开始就没有改变,现在也没有改变。如果你开发 AI 软件,你想部署它,让人们可以使用它,你需要安装基础。

第二,系统公司想要杀手级应用。这就是杀手级应用这个词存在的原因,哪里有杀手级应用,哪里就有客户需求,哪里有客户需求,你就可以销售硬件。

事实证明这个循环非常难以启动。你真的能构建多少加速计算平台?英伟达能为生成式 AI 构建一个加速计算平台,以及在工业机器人、量子、 6G 、天气预报等领域,推动这些技术的发展。

英伟达构建了通用加速计算平台,涵盖流体、粒子、生物学、机器人学、 AI SOL 等不同应用领域,已成功驱动绝大多数加速软件。

你需要一个足够通用的加速计算平台,来运行不同种类软件,英伟达花了很长时间,但基本上运行了一切。如果你的软件被加速了,我非常确定,它运行在英伟达上。如果你有加速的软件,我非常确定它运行在英伟达上。之所以这样,是它可能是首先在英伟达上运行的。

这就是英伟达的架构。每当我做主题演讲时,我倾向于覆盖所有领域,有些新的东西,例如 Blackwell 。我谈到了有很多好东西,你真的必须去看看我们的 1000 tox 6G 将如何发生?当然是 AI

为什么 MIMO 神经接收机如此预装,为什么算法在站点之前。我们应该有特定于站点的 MIMO ,就像机器人 MIMO 一样。,强化学习和与环境的交易, 6G 当然将是软件定义的,当然是 AI

我们还是量子计算行业的优秀合作伙伴。如何运行一个量子计算机?如何构建世界上最快的计算机?如何激励量子计算机?如何模拟量子计算机?量子计算机的编程模型是什么?

编程一个量子计算机远远不够,需要在经典计算基础上构建,量子将成为某种量子加速器。

谁应该去做那件事,我们已做了,我们与整个行业在这方面合作。整体上看,一些非常非常伟大的事情。我希望我能讲全,我们可以有一个完整的主题演讲,只关于所有这些事情,但覆盖了整个领域,那是昨天的事情。

问答环节:

Ben Reitzes 我来自 Melius Research ,很高兴见到你。

这对我们所有人来说都是一个巨大的刺激。我想更多了解你对软件的愿景。你正在创造一个行业,你有全面的解决方案。很明显,英伟达软件使英伟达芯片运行得更好。

你认为从长远看,英伟达软件业务能否像芯片业务一样大?如果我们展望 10 年,会是什么样,考虑到英伟达在软件与 AI 芯片行业的势头?似乎会变得更多一些。

黄仁勋: 首先,感谢你们所有人的到来,这是一个非常不同类型的活动。大多数演讲都是关于软件的,他们都是计算机科学家,他们在谈论算法。英伟达软件栈关注两件事,其中一个帮助计算机运行得更好的算法, TensorRT-LLM

这是一个极其复杂的算法,它以大多数编译器从未需要的方式探索计算空间。 TensorRT-LLM 甚至不能在没有超级计算机的情况下构建。很可能未来的 TensorRT ,未来的 TensorRT-LLM ,实际上必须一直在超级计算机上运行,以便为每个人的计算机优化 AI ,这个优化问题非常非常复杂。

另外一个是,我们开发的软件涉及到实时方式的算法发现。例如, Navier-Stokes ,薛定谔方程,也许在超级计算或加速计算或实时光线追踪的方式中表达它是一个很好的例子。实时光线追踪从未被发现。这有道理吗?纳维 - 斯托克斯方程 Navier-Stokes 是一个极其复杂的算法。

能够以实时方式重构它,也是非常复杂的,需要大量的发明,我们公司一些计算机科学家获得奥斯卡奖,他们在如此大的规模上解决这些问题,然后电影公司用它来拍电影。他们的发明,他们的算法,他们的数据结构,是计算机科学本身。我们将致力于这两层。

然后,当你打包它,在旧时代,这对娱乐,媒体娱乐,科学等是有用的。但今天, AI 已将这项技术带到了应用的边缘,模拟分子曾经是你在大学里研究的事情。现在你可以在工作中做到这一点。

当我们现在为企业提供所有这些算法时,它变成了企业软件,前所未有的企业软件。我们将它们放在 NIMs 中,这些包。我们将大量生产这些东西,并将支持它们,维护它们,保持它们的性能,以便支持客户使用它。

我们将以非常大的规模生产 NIMs ,我猜,这将是一个非常大的业务,这是工业革命的一部分。如果你看到了,今天的 IT 行业是这样, SAP 与伟大的公司, ServiceNow 、与 Adobe Autodesk Canes ,那一层,那是今天的 IT 行业,那不是我们要玩的地方。

我们要玩的是上面的一层,上面的那一层是一堆 AI 与这些算法,我们是正确的公司去建造它们。我们会与他们一起建造一些,我们会自己建造一些,但我们会打包它们,并以企业规模部署它们。

Vivek Arya 我来自美银证券。

我的问题可能是更接近中短期,就是可寻市场的规模,你的收入增长如此之快。大型客户占英伟达总收入占比是 30% 40% 50% ,有时甚至更多,但当我看到你们从生成式 AI 中产生多少收入时,它们不到他们销售额 10% ,这种差距可以持续多久?

更重要的是,我们是否已到了他们可以花多少钱在你们产品上的中点?我认为你过去给我们提供了万亿美元的市场,将达到 2 万亿美元。你能否预测市场有多大?以及我们在这个采用曲线上的位置,基于它在近中期可以变现多少?

黄仁勋: 我先给你非常简洁的答案,我会继续详细解释。这取决于市场大小与我们卖的产品。我们卖的是数据中心,只是把它分解了。最终,我们卖出的是整个数据中心。注意你在主题演讲中看到的最后一张图片,它提醒我们实际上卖的是什么,我们展示了一堆芯片。

我们并不真的卖那些芯片,芯片本身不能工作,需要构建成一个系统才能运行。最重要的是,系统软件与生态系统架构非常复杂。英伟达为 AI 构建整个数据中心,我们只是将其分解成各个部分,这些部分适合你的公司。

这是第一点,我们卖的是什么?机会在哪里?

今天,全球数据中心市场规模是 1 万亿美元。它是 1 万亿美元的基础设施,每年有 2,500 亿美元的市场。我们是按部分出售整个数据中心,我们在每年 2,500 亿美元市场中所占的百分比,可能比单纯卖芯片的公司要高得多。它可能是 GPU 芯片、 CPU 芯片或网络芯片。那个机会以前并没有改变。英伟达制造的是数据中心规模的加速计算平台,我们在每年 2,500 亿美元市场中所占的百分比可能会比过去高得多。

第二个问题,它的可持续性如何?有两个答案。你选择英伟达的一个原因是 AI 。如果你只是制造 TPUs ,如果你的 GPU 只用于一个应用程序,你必须完全依赖于 AI 。今天你可以从 AI 中变现多少?

如果你的价值主张是 AI Token 生成,但那是基于 AI 训练模型,非常重要的是降低计算成本,加速计算,可持续计算,节能计算,这是英伟达的核心业务。这只是我们做得非常好的地方,以至于创造了生成式 AI

现在人们忘记了,这有点像我们第一个应用程序是计算机图形学,第一个应用程序是游戏。我们做得如此出色,如此充满激情,人们忘记了我们是加速计算公司。

他们认为,你是一个游戏公司,一代年轻人长大了。一旦他们学会了,他们使用 RIVA 128 ,他们带着 GeForce 上了大学,当他们最终成为成年人时,他们认为你是一个游戏公司。我们在加速计算、 AI 方面做得如此之好,以至人们认为那就是我们所做的一切。

加速计算是 1 万亿美元,每年 2,500 亿美元的市场。不管有没有 AI ,都应该有 2,500 亿美元用于加速计算,只是为了可持续计算,只是为了处理 SQL SQL 是世界上最大的计算消耗之一。

在那之上是生成式 AI 。我认为生成式 AI 会有多可持续?你知道我对这个问题的看法。我认为我们将生成单词、图像、视频、蛋白质、化学品、动力学行动、操纵。我们将生成预测、账单、材料清单等。

Stacy Rasgon 我来自伯恩斯坦研究。我想询问有关 CPU GPU 之间互动的问题。你昨天展示的大多数基准测试,都是关于 Grace Blackwell 系统的,它有 2 GPU 1 CPU ,相对 Grace Hopper ,每颗 GPU CPU 比例翻了一番。

你没有谈论太多与独立 GPU 相关的基准测试。这是一个转变吗?你们是不是在寻找未来 AI 服务器中更多的 CPU 内容?我如何看待你正在开发的 ARM CPU x86 之间的互动,似乎你们未来对 x86 方面的重视程度有所降低。

黄仁勋: 实际上,它们两者都没有任何问题。我认为 x86 ARM ,对数据中心来说都是完全可以接受的。 Grace 之所以建成这样,有其原因, ARM 的好处是我们可以围绕 CPU 塑造英伟达系统架构。

这样我们就可以在 GPU CPU 之间创建这种东西,称为芯片到芯片的 NVLink ,连接 GPU CPU 。我们可以使两侧保持一致,这意味着,当 CPU 触摸一个寄存器时,它会使 GPU 侧的相同寄存器失效。

两侧可以协同工作一个变量。今天你不能在 x86 与外围设备之间做到这一点,我们解决了一些我们无法解决的问题。 Grace Hopper 非常适合 CAE 应用程序,这是多物理的。有些在 CPU 上运行,有些在 GPU 上运行,它非常适合 CPU GPU 的不同组合。

我们可以为每个 GPU 或两个 GPU 关联非常大的内存。例如,在 Grace Hopper 上进行数据处理非常非常适合。这并不是 CPU 本身,而是我们无法采用系统。其次,为什么我展示了一张图表,在那张图表中,我展示了 Hopper Blackwell x86 系统 B100 B200 上的对比,还有 GB200 ,即 Grace Blackwell

在那种情况下, Blackwell 好处并不是 CPU 更好,而是在 Grace Blackwell 支持下,我们能够创建更大的 NVLink 域。这个更大的 NVLink 域,对下一代 AI 来说真的非常重要。

未来 3 年,未来 3~5 年,就目前我们所能看到的范围而言。如果你真的想要一个好的推理性能,你将需要 NVLink ,那是我试图传达的信息。

现在非常清楚,这些大型语言模型,它们永远不会适合一个 GPU 。无论如何,这都不是重点。为了让你足够响应并且吞吐量高以保持成本下降,你需要比你甚至适合的 GPU 多得多。为了让你有很多 GPU 协同工作而没有开销,你需要 NVLink NVLinks 好处是推理,总有人认为 NVLinks 好处在于训练。

NVLinks 好处与推理是图表之外的。那是 5 倍与 30 倍之间的差异,那是另外 6 倍,都是 NVLink 。新的 Tensor Core 中的 NVLinks 。是的, Grace 让我们能够构建一个系统,就像我们需要的那样,而且用 x86 更难做到,这就是全部,但我们支持两者,我们将有两个版本的两者。

而在 B100 情况下,它只是滑入 H100 H200 所在的位置。从 Hopper 过渡到 Blackwell 的过渡,是即时的。一旦它可用,你只需滑入它,你可以弄清楚下一个数据中心要做什么。我们得到了架构极限的极高性能的好处,以及轻松过渡的好处。

Matt Ramsay 我想请 Jensen 评论一下我最近一直在思考的几个话题。其中一个是你们昨天讨论过的 NIMs ,我觉得它是一个针对特定垂直领域的加速器,能帮助客户更快投入到 AI 生态中。能否简要介绍一下贵公司如何在广泛的企业级市场采取行动,以及客户怎样加入到 AI 中?

第二个问题是关于电力。近期我们团队对此投入不少精力,我在思考是否需要加大在这方面的投入。昨天提到的一些系统耗能高达 100 千瓦或以上,这种计算规模的实现,离不开你们的整合工作。我们也关注宏观层面的电力生成与高密度下的电力输送问题。我想听听英伟达如何与行业合作,供应这些系统所需电力的。

黄仁勋: 我先从第二个问题开始回答。电力供应, 100 千瓦对计算机系统来说是相当大的电量,但电力本身是一种商品,世界需要的电力远不止 120 千瓦。

电力的绝对量不是问题,电力的传输也不是问题,电力传输的物理特性也不是问题,冷却 120 千瓦的热量也不是问题。

这些都不是物理问题,也不需要发明什么,所有这些都需要供应链规划。供应链规划有多重要?非常重要。

我意思是,我们非常认真考虑供应链规划,并且一直在这样做,我们与之有很好的合作伙伴关系。我们非常重视并深入参与其中,与 Vertiv 等合作伙伴联手解决冷却问题,也与西门子、罗克韦尔、施耐德等建立深入合作关系。

通过这些合作,我们优化供应链管理,我们自建数据中心的经验,也为我们提供了宝贵的实践知识。

我们从 2016 年第一台超级计算机 DGX-1 起,每年都在建设新的超级计算机, 2024 年我们还要建造几台,这些经验帮助我们更好理解与选择合作伙伴。

至于 NIMs 的问题,我们提供两条路径帮助企业级客户接入 AI 。一条是通过我们网站与广泛的解决方案提供商网络,使得 NIMs 能够被转换成适用的应用程序。这样的市场推广,包括大型 GSIs 与规模较小、专业化程度较高的 GSIs 等,我们在这一领域拥有很多合作伙伴。

另一个更为激动人心的方向是,向企业提供工具加上协作工具的解决方案,我认为这里会发生重大变革。比如,世界上最普遍的工具微软 Office 现在有了协作工具。 Synopsys Cadence Ansys ,所有这些未来都会有协作工具。

我们也在为自己与合作伙伴的工具开发智能协同助手,例如我们为英伟达工具开发的 ChipNeMo

ChipNeMo 非常智能,能够了解英伟达的行话,关于英伟达芯片的对话,并且知道如何编英伟达的程序。我们聘请的每一位工程师,我们要给向他们介绍的第一件事就是 ChipNeMo ,然后才是洗手间、餐厅。

些协同助手理解特定的语言与程序,能够极大提高工程师工作效率。

我们正在为所有工具构建协作工具,大多数公司可能做不到这一点。我们可以教 GSIs 这样做,但在 Cadence 等这些工具领域,他们将自己构建自己的协作工具。他们会把它们当作工程师出租,我认为他们坐拥金矿。

未来,不仅是英伟达,其他企业如 SAP ,也将开发自己专业化协同助手。在 SAP 案例中, ABAP 是一种只有 SAP 爱好者才会喜欢的语言, ABAP 对世界的 ERP 系统来说是非常重要的语言,每家公司都在使用 ABAP

现在他们必须创建一个 Chat ABAP ,就像我们为 Omniverse 创造的 ChatUSD 一样,西门子、罗克韦尔等也会这样做。

我认为,这是进入企业的另一种方式,就像 ServiceNow 一样,他们正在构建很多协作工具。我认为,这将是他们发掘潜在价值、开辟 AI 劳动力行业新天地的重要手段。对此,我感到异常兴奋。

每次我见到他们,我都会告诉他们,无论你坐在哪里,你都坐在一个金矿上,你坐在一个金矿上,我的意思是,我为他们感到非常兴奋。

Tim Arcuri 我来自瑞银。我有一个关于 TAM 的问题,它更多涉及到新兴市场与成熟市场之间的比较,之前 H100 基本都是针对新市场。我们并没有看到有人拿掉 A100 ,换上 H100 的情况。但对 B100 ,是否有可能首次看到在成熟市场中进行升级,即用 B100 替换掉 A100

如果总市场从 1 万亿美元扩大到 2 万亿美元,我们将面临一个 4 年的更换周期。这意味着约有 5,000 亿美元的增长,将来自于对现有基础设施的升级。不知你能否就此发表看法。

黄仁勋: 这是个很好的问题。目前,我们主要是在升级数据中心中最慢的计算机,即 CPU 。这是一个很自然的过程。接下来,我们会逐步转向更新 Amperes ,然后是 Hoppers

我相信,在未来 5~8 年内,我们将开始看到自家基础设施的更新周期。尽管如此,我认为目前的更新不是最佳的资本利用方式。毕竟,你也知道 Amperes 效率非常高。

Brett Simpson 我来自 Arete Research ,我想就推理进行提问。 B100 在推理性能方面与 H100 相比表现出色。

你认为新平台在拥有成本方面,会给客户带来怎样信息?你觉得相比 ASIC 或市场上其他推理平台, B100 将会如何表现?

黄仁勋: 我认为,大型语言模型有了新的 Transformer 引擎与 NVLink ,很难被超越。这一点得益于问题的高维度。我之前提到 TensorRT-LLM 优化编译器及其底层可编程的 Tensor Core 架构,以及 NVLink 技术,使得多个 GPU 能以极低的额外成本联合工作。借此, 64 GPU 的效能,就像一个单独的 GPU 一样,这是非常惊人的。

在不涉及 NVLink 额外成本情况下,通过网络如以太网连接 64 GPU 是行不通的,这实质上是一种资源浪费。 NVLink 的引入,允许所有 GPU 无缝协作,一次性生成一个 token ,这是一个复杂的并行计算挑战。 Blackwell 极大提升行业标准,即便是 ASIC ,也难以匹敌。

C.J. Muse 我来自 Cantor ,我对你的定价策略很好奇。历史上,你提到购买越多,节省越多的策略。

现在看来, Blackwell 定价相比其提供的效率,似乎有一定优惠。我想问的是,在考虑到可能采取的剃刀与剃刀片销售模式销售软件与整套系统情况下,你如何调整定价策略?我们应该如何看待这种情况下正常化利润率?

黄仁勋: 我们定价始终是基于总体拥有成本 TCO ,我们希望让大多数主要用户能够承受得起。如果客户群特定于某个领域,如分子动力学,并且只针对一个应用,我们会相应调整 TCO 。比如,对医学影像系统, TCO 可能会非常高,但市场规模较小。

随着市场扩大,我们希望让更多市场能够承受得起 Blackwell ,这实际上是一个自我平衡的问题。随着我们为更大的市场解决 TCO 问题,一些客户可能会从中获得更高价值,但这是可接受的。

我们力求简化业务,提供一个基本产品支撑广大市场。如果市场日后发生分化,我们可以进行市场细分,目前尚未到那个阶段。我们有机会为大众提供非常高的价值,为所有人提供极佳的价值,这是我们目标。

Joseph Moore 我来自摩根士丹利。我注意到你们介绍的 GB200 系列产品规格,非常引人注目,你提到这得益于更大的 NVLink 域。

能否详细对比下 GB200 系列与 GH200 系列的不同之处?以及为何你认为 GB200 会成为一款市场表现更加突出的产品?

黄仁勋: 非常好的问题。简单来说, GH200 系列包括 100 200 Grace Hopper 版本在大规模普及之前,更高级的 Grace Blackwell 系列就已发布。

Grace Hopper 系列,相较 Hopper 系列有额外的负担。 Hopper 系列,紧接着 Ampere 系列之后发展,从 A100 转到 H100 ,再到 B100 ,依此类推。

这一产品线已相当成熟,我们将继续沿这个方向发展。针对这些产品,我们已开发了适配的软件,大家也已熟悉它的操作方式等。

Grace Hopper 系列有些不同,解决了我们之前没有很好覆盖的新应用场景,比如需要 CPU GPU 紧密合作处理的多物理问题,处理大型数据集等挑战。 Grace Hopper 系列在这些方面表现出色,我们开始开发针对这一系列的软件。

我现在建议大多数客户直接着眼于 Grace Blackwell 系列。无论他们现在如何使用 Grace Hopper 系列,都将与 Grace Blackwell 系列完全兼容,这是非常棒的一点。即便他们现在选择 Grace Hopper 系列,那也是非常好的选择,我建议他们投入更多精力到 Grace Blackwell 系列中,它的性能更优。

问: 我问题关于机器人技术。似乎每次我们参加 GTC ,你们总在最后揭露一些惊喜。几年后,我们惊讶发现你们已在这个话题上讨论了很长时间。

我了解到,你们提到机器人技术可能正在接近 ChatGPT 的重要时刻。你能否解释这意味着什么,以及你是如何看到机器人技术正在逐渐融入我们日常生活?

黄仁勋: 感谢你的提问。 2 年前,我展示了 Earth-2 项目。 2 年后,我们研发出一个新算法,能够实现 3 公里分辨率的区域天气预测,所需的超级计算机是当前用于天气模拟的 25,000 倍,这样的分辨率可以让我们更精确预测天气。

天气预测需要考虑大量变量,我们需要模拟不同参数的分布以预测天气模式。由于所需计算资源非常庞大,常规方法很难实现多次模拟。我们通过训练 AI 理解物理法则来解决这个问题,从而能够在全世界范围内帮助人们进行区域性天气预测。借助 AI ,我们基本上进行了 1 万次天气模拟。

2 年前我展示了这个 AI 模型,今天我们连接到世界上最值得信赖的天气数据来源,即天气公司。我们将帮助世界各地人们,进行区域天气预测。对航运公司、保险公司或那些经常面临台风与飓风威胁的地区而言,这项技术能够带来很大帮助。实际上我们在几年前,就迎来 ChatGPT 时刻。

退一步来说, ChatGPT 真的很不可思议。它通过学习大量人类示例,并能够理解与生成符合上下文的内容,它现在可以生成原始 token ,通过所谓的标记化学习特定动作的含义,理解与模拟动作。

ChatGPT 的伟大之处在于通过增强学习与人类反馈来不断进化,它会尝试去做一些事情。你说这不如这个好,它会尝试去做别的事情。你说:不,这不如这个好。人类反馈,增强学习,它就会接受那种增强并提高自身。

Omniverse 用途是什么? Omniverse 就是在物理世界中,应用这一概念物理模拟反馈的平台,通过模拟与物理世界中各种互动的过程,来训练 AI 。简而言之,我们是在利用一套相同的原理与概念,推动 AI 技术在不同场景下的广泛应用。

特别值得一提的是 Isaac Sim ,它是基于 Omniverse 平台之上的机器人培训与模拟系统,对任何业内人士来说都非常成功,我们已为机器人构建了一个全新的操作系统。

Atif Malik 我来自花旗集团。我想问一下,你提到 Blackwell 平台, 2024 年晚些时候将会正式发货,你能否具体说明是 2024 年哪个季度?一季度还是三季度?

新产品的供应链准备情况,特别是 B200 CoWoS-L 的包装,你们是如何安排的?

Colette Kress 关于供应链准备的问题,我们已为这些新产品上市做了 1 年多的准备工作。我们非常荣幸能与我们合作伙伴共同开发供应链,不断提高韧性与抗风险能力。我们正在探索 CoWoS 、新的存储技术以及我们所制造的大量复杂组件。这项工作正在稳步推进,会在产品投放市场时准备妥当。

我们也与合作伙伴合作,确保液冷系统与数据中心的构建准备就绪,这对我们计划与整合所有 Blackwell 配置至关重要。至于产品上市时间,我们希望在 2024 年晚些时候能看到产品上市。

我们已与多家客户进行交流,讨论设计与规格,他们需求反馈也对我们供应链准备与生产计划大有帮助。尽管一开始可能会有一些供应限制,我们将致力于满足市场需求。

黄仁勋: Hopper Blackwell 被设计用于支持当前运营需求, Hoppers 需求非常旺盛,很多客户对 Blackwell 已有所了解。我们尽早让客户了解这些信息,以助他们规划数据中心。 Hopper 的需求,实际运营需要而保持强劲。

Pierre Ferragu 我来自新街研究所。我想询问一下关于 Blackwell 的技术问题,特别是 2 个芯片间 10TB 的数据传输,是如何实现的?这背后的技术与制造挑战是什么?

展望未来,你认为我们会看到越来越多的芯片整合成单一的封装吗?另外,考虑到 AI 模型的进步,你怎么看未来的 GPU 架构方向?

黄仁勋: 在我们作为所有 AI 研究工作的基础平台的角色中,我们有幸能够提前获悉即将到来的所有研究进展。当然,所有下一代模型的目标,都是将当前世代系统的限制推至极致。

例如,巨大的上下文窗口,状态空间向量,合成数据的生成,本质上是模型自我对话,强化学习,本质上是大型语言模型的 AlphaGo ,树搜索。这些模型将需要学会如何进行推理与进行多路径规划,而不仅是单次尝试,这有点像我们在思考时需要仔细规划我们的行动。

那个规划系统,那种多步骤的推理系统,可能非常抽象,而且计划的路径可能非常长,就像下围棋一样。这样的约束条件,要远远复杂得多,这整个研究领域异常激动人心。

接下来几年里,我们将目睹的系统类型,与今天相比,可以说是难以想象的,原因就如我描述的那样。尽管有人担忧训练这些模型可用的互联网数据量,但这实际上并不是问题。

10 万亿 token 已足够好了,但别忘了,合成数据的生成,模型相互对话,强化学习,你将会生成的数据量,将需要 2 台计算机相互训练。今天我们有一台计算机在数据上进行训练,明天将会是两台计算机,对,记住。

AlphaGo 是多个系统相互竞争的,我们也可以尽可能快地做到这一点。我们即将见证一些真正令人兴奋的突破性工作,我们确信,由于这些原因,我们希望我们 GPU 在规模上更大。我们公司的 SerDes 是绝对世界一流的,数据传输速率与每比特的能量消耗无与伦比,这就是我们能够实现 NVLink 的原因。

记住, NVLink 之所以问世,是我们无法制作足够大的芯片,我们将芯片连接起来,这是在 2016 年。 NVLink 已发展到第 5 代。世界其他地方,甚至还没有达到 NVLink 第一代。

借助我们自主研发的第 5 NVLink 技术,我们已实现高达 576 个芯片之间的无缝连接,这样的联接,不仅大幅提升数据通信的效率,也为构建超大规模计算体系提供可能。

就我个人而言,数据中心如此之大,它们是否需要这么紧密连接在一起?完全不必,将它们分割成 576 个部分也没问题, SerDes 的能耗本来就很低。现在,我们可以制作更紧密的芯片。我们希望这样做是因为,那样的话软件就无法感知差异了。

当分割芯片时,算法应该是构建光刻技术所能实现的最大芯片,然后将多个芯片以任何可行的技术连接起来,但一开始必须先打造历史上最大的芯片。否则,为什么我们过去不做多芯片组合?我们就是一直在推进单片技术。原因在于,芯片内的数据传输速率与能耗,使得编程模型尽可能统一,不会遇到所谓 NUMA 非一致性存储器访问现象。

不会出现 NUMA 行为,不会有奇怪的缓存行为,不会有内存局部性行为,这些都可能导致程序根据所运行的不同节点而工作不同。我们希望我们的软件,无论在哪里运行,都能保持相同的表现。

你首先需要的是制造出光刻技术所能允许的最大芯片,那就是第一个 Blackwell 芯片。我们把 2 块芯片连在一起,每秒 10TB 的技术是疯狂的。在此之前,没人见过每秒 10TB 的链接。这显然消耗的电力非常少,否则它就只是一个链接而已,需要首先解决的就是这个问题。

接下来必须解决的问题,是刚才提到的 CoWoS 封装技术。我们采用了目前全球容量最大的 CoWoS 封装技术,这不仅显著提升产品性能,更确保了面向市场的大规模生产过程中供应链的稳定性与可靠性。

上次的需求激增相当突然,这次我们有足够预见性, Colette 完全正确。我们与供应链密切合作,与台积电紧密合作,我们已为激动人心的增长做好了准备。

Aaron Rakers 我来自富国银行,我想接着你之前提到的以太网,以及借助 Ultra Ethernet 进行的讨论继续提问。

黄仁勋: 我非常看好以太网技术。

Aaron Rakers 我有兴趣了解, NVLink 如何通过 576 GPU 实现互连。这种布局架构的概念,在以太网演变、你们 Spectrum-4 产品、向 800 Gbps 的发展方面起着怎样作用? NVLink 是否会在某些情景下与以太网形成竞争?

黄仁勋: 不会。首先,构建大规模集成电路的算法,实际上非常简单,即尽可能构建最大的芯片,我们生产的芯片已达到极限大小。其次,尽可能将两个芯片连接起来。当两个芯片的连接成为可能时,我们就开始面临诸如 NUMA 效应与局部性效应等挑战。这时, NVLink 就显得尤为关键。

拥有 NVLink ,我们就能以成本与功耗为前提,构建尽可能大的链接网络。我们坚持使用铜,而非光纤连接多达 576 GPU 芯片,这相当于一个巨型芯片,是为了有效节能与降低成本,从而实现可扩展性。仅靠 576 GPU 是远远不够的,我们需要更多的相互连接。

在这个层面上, InfiniBand 是最优选择,其次是集成了加速计算层的以太网,即 Spectrum X 。这样,我们可以有效管理系统内部的数据流,避免数据滞后,优化整体计算速度。其实,每一种技术都有应用场景,我们对光学技术的需求依然非常大,不必担心对光学技术的需求。

Will Stein 关于阿联酋主权 AI 项目,能否具体说明英伟达打算如何操作?我想知道,我们该如何向老一辈,比如我 91 岁母亲,解释什么是加速计算?

黄仁勋: 在解释加速计算时,可以用使用合适的工具完成相应的工作来比喻。传统的通用计算,就像是用同一个螺丝刀来完成所有工作,比如从起床刷牙到睡觉都在用螺丝刀,随着时间发展与人类智慧积累,我们使通用工具更加多功能,螺丝刀上加了刷子、绒毛等。

CPU 在顺序任务处理上,表现得很好,并不擅长并行处理。大多数应用中,如 Excel 与大部分个人电脑应用, CPU 性能已足够。

但对电脑图形学与视频游戏这样的新应用领域来说,有 1% 的代码决定 99% 的运行时间。我们创造一种擅长处理这个 1% 代码的硬件,即使它在剩下 99% 的代码上表现不佳。

这就是我们开发出针对分子动力学、医学成像、地震处理、 AI 等领域的加速计算。加速计算可以大幅提升处理速度,这也是为什么加速计算、数据处理等领域,可以获得巨大性能提升的原因。

每个国家都有自己天然资源,那就是他们知识产权,体现在自己语言、历史、文化中,这些通常保存在国家档案馆,并已数字化,并非公布在互联网上。我们认为这些国家,应该利用这些数据资源,创建自己的主权 AI

无论是印度、瑞典、日本,还是其他国家,他们都意识到这些数据资源,不应该免费流向外部,然后通过支付费用以 AI 形式再输入。他们现在认识到,应该保留自己数据,推广与输出自己 AI ,这是非常大的市场。我们关注遵守出口管制,并在某些国家可能提供些规格较低的产品,以确保能够支持全世界各国构建与应用 AI

黄仁勋: 我们正处在特殊的时刻,见证了技术史上一个重大转折点,计算方式的变革与软件新纪元的来临。未来 10 年,对我们所有人来说都将是重要的,我们期待与你一同迎接挑战,共创美好未来。

黄仁勋在 GTC 2024 主旨演讲全文
时间: 2024 3 19
来源: Web3 天空之城
字数: 25,391

演讲要点:

NVIDIA 发展历程始于 1993 年, 2006 年,革命性的 CUDA 计算模型诞生,成为里程碑。 2012 年, AI 首次接触 CUDA ,标志着 AlexNet 的出现。 2016 年, NVIDIA 发明 DGX-1 超级计算机, 8 GPU 实现 170 teraflops 算力。从 2017 Transformer 2022 ChatGPT ,这些技术点燃全球想象力,彰显 AI 非凡潜力。 2023 年,生成式 AI 崭露头角,开启全新产业征程。

数据中心正成为 NVIDIA 生成 Token 、浮点数的重要基地。就像工业革命时期发电机创造电力, NVIDIA 如今正在 AI 工厂中用 GPU 生成极其有价值的新型电子 Token ,以 AI 为核心的新产业正在形成。

NVIDIA 灵魂在于计算机图形学、物理、 AI 的交叉融合,这些在 Omniverse 模拟的虚拟世界中交汇。今天展示的内容,皆为模拟而非动画,它之所以美,源于背后的物理学规律,就像真实世界一样。更神奇的是,这些动画由机器人、 AI 创作,观众将欣赏到前所未有的 AI 自制音乐会。

加速计算已到达临界点,通用计算逐渐失去动力。加速计算在性价比上远超通用计算,几乎遍布所涉足的每个行业,它的影响不局限于单一行业。各行业正在利用数字孪生技术,实现全流程数字化、高保真模拟,这意味着要大幅提升计算规模。合作伙伴正携手 NVIDIA ,共同推动整个生态系统进入加速计算时代。

加速计算另一大优势在于,当整个基础设施与 GPU 耦合时,便可轻松实现 AI 生成能力。 NVIDIA 已与一些重要合作伙伴建立深度关系, ANSYS 、新思科技、 Cadence 这些顶级公司,正在利用 NVIDIA GPU 加速系统的巨大安装基础,为最终用户、系统制造商、 CSP 创造巨大机遇与客户需求。

Blackwell NVIDIA 推出的全新 GPU 平台,将涵盖与 Hopper 兼容的普通系统与和 Grace CPU 连接的专用系统。 Blackwell 提供了前所未有的算力,有望突破物理极限,为互联网产业注入新动力。

在处理海量数据与复杂计算时,精确性与范围至关重要。配备第五代 NV Link 的全新 Transformer 引擎速度惊人。在多 GPU 环境中,信息同步与更新必不可少。

新型超算的高速运转,离不开早期问题检测与替换机制。数据加密对价值数亿美元的 AI 模型与代码至关重要。高速压缩引擎可将数据高效导入导出,速度提升 20 倍。 Nvidia 必须全力保留这些功能,这些超算的投资与能力都十分惊人。

全新的 FP8 格式,让内存可容纳更多参数,大幅提升计算速度。生成式 AI ,作为一种全新计算范式正在兴起。 NVLink 交换芯片实现所有 GPU 同时全速通信,仿佛成为一个巨无霸 GPU ,直接驱动铜技术的突破让系统更加经济实惠。

训练一个 1.8 万亿参数的 GPT 模型,传统方法可能需要 8,000 GPU 15MW 电力,历时 90 天。 Blackwell 只需 2,000 GPU ,功耗 4MW

NVIDIA GPU 有一半时间运行在云端,专注于生成 Token ,如 Copilot ChatGPT 等。庞大的语言模型,需要后台超算的支持。要在众多 GPU 中高效分配任务, CUDA 与丰富生态系统不可或缺。 Blackwell 惊人的推理能力,是 Hopper 30 倍,有望成为未来生成式 AI 的核心引擎。这些 AI 工厂旨在产生智慧,而非电力。 AWS GCP Oracle 、微软纷纷为 Blackwell 做好准备。

数字孪生技术已在各行各业大放异彩。 Wistron 利用 Omniverse SDK 定制软件,将 NVIDIA DGX HGX 工厂实现数字孪生,大幅缩短调试周期。 NVIDIA 还运用生成式 AI 预测天气。 CoreDev 可通过超高分辨率 AI 预测严重风暴,如台风灿都。这项服务作为 NVIDIA Earth 2 的一部分,将惠及全球气象机构。 NVIDIA 在医疗领域硕果累累,涵盖医学成像、基因测序与计算化学等。

NVIDIA 推出 BioNeMo NIMS 等新品,可在几分钟内生成候选分子。微服务包含三大支柱: AI 模型、运行 AI 的工具、 AI 技术;基础设施用于 AI 微调与部署,可在 DGX 云等平台上实现。这类似台积电代工芯片的模式,被称为 AI 代工厂。

用户可利用这些服务处理各类结构化与非结构化数据,编码存储于向量数据库中,成为企业专属智慧。通过与智能数据库交互,可轻松获取所需信息。

NVIDIA AI Foundry ,正携手 SAP ServiceNow 等巨头,帮助他们开发自有数据与工具,在聊天机器人中打造企业级 Copilot

要让 AI 理解物理世界,需要 AI 计算机、监测分析计算机、执行任务的机器人三位一体。这就像语言模型,只不过我们要构建的是端到端的机器人系统。

通过强化学习,机器人可适应物理定律。 Omniverse 提供模拟环境,教会机器人如何成为机器人, OVX 托管于 Azure 。未来的仓储、工厂,都将由软件定义,机器人自主协同工作。数字孪生,是机器人系统 CICD 的关键。西门子正构建工业元宇宙,日产已将 Omniverse 整合到工作流。


所有移动设备都将是机器人,包括自动驾驶汽车。从计算机视觉到 AI 控制,还有很多工作要做。

黄仁勋总结 5 大要点:新工业革命、 Blackwell 平台、 NIMS NEMO AND NVIDIA AI Foundry Omniverse AND ISAAC 机器人,这些将重塑产业格局,开启 AI 新纪元。

演讲全文:

欢迎来到 GTC ,这是一场开发者大会

欢迎来到 GTC 。我希望你意识到这不是场音乐会,你已到达开发者大会,这里将会有很多科学描述,包括算法、计算机体系结构、数学。

我突然感觉到房间里有很重的重量,几乎就像你来错地方。世界上没有哪个会议,会有更多的研究人员聚集,他们来自如此不同的科学领域,包括气候技术、无线电科学,他们试图找出如何使用 AI 机器人控制 MIMO 下一代 6G 无线电、机器人、自动驾驶汽车,甚至 AI 。即使是 AI ,我也突然感觉到一种如释重负的感觉。

本次会议也有代表参加,他们来自一些令人惊叹的公司。这份名单中,这些不是与会者,这些是主持人,令人惊奇的是这个。如果你带走我所有朋友,亲密的朋友迈克尔 · 戴尔就坐在那儿。在 IT 行业,所有与我一起在这个行业长大的朋友,如果你把那个名单拿走,这就是令人惊奇的事情。


这些非 IT 行业的主讲者,使用加速计算来解决普通计算机无法解决的问题。它在生命科学、医疗保健、基因组学领域,都有代表性。运输当然是零售、物流、制造、工业,所代表的行业范围确实令人惊叹。

你来这里不仅是为了参加,来这里是为了谈论你的研究。今天这个房间里有代表世界上 100 万亿美元的行业代表,这绝对是惊人的。

绝对有事情发生,这个行业正在发生转变,不仅是我们行业,计算机行业,计算机是当今社会最重要的工具。计算领域的根本性变革,影响着每个行业。我们是如何开始的?我们是怎么来到这里的?

计算机行业根本性的转型影响着每个行业


生成式 AI 带来全新的行业

我为你做了一个小漫画,从字面上看是我画的,在一页中这是 NVIDIA 的旅程。

1993 年开始,这可能是谈话的其余部分。 1993 年,这是我们的旅程,我们 1993 年成立,一路上发生了几件重要的事件。

我想强调几个关键的时间节点。

首先是 2006 年, CUDA 诞生。事实证明,这是一种革命性的计算模型。当时,我们预见到它将引发一场革命,并在一夜之间崭露头角。如今,近 20 年过去,我们看到这一预言的实现。

然后是 2012 年, AlexNet 的出现,标志着 AI CUDA 的首次接触。

后来是 2016 年,我们认识到这种计算模型的重要性,于是发明全新类型的计算机,我们称为 DGX-1 。这台超级计算机具有 170 teraflops 算力, 8 GPU 连接在一起。我亲手将第一台 DGX-1 ,交付给旧金山初创公司 OpenAI DGX-1 是世界上第一台 AI 超级计算机,算力达到 170 teraflops

2017 Transformer ,到 2022 ChatGPT ,这些技术激发了全世界的想象力,让人们认识到 AI 的重要性与能力。

到了 2023 年,生成式 AI 出现,新的行业开始了。为什么我说这是新的行业?这种软件,以前并不存在。

新的软件类型出现

我们现在正在用计算机编写软件,生产出以前从未存在过的软件。这是全新的类别,它从无到有占据了市场份额。这是全新的类别,以及一种全新的制作软件的方式,与我们以前做过的任何事情都不一样。

在数据中心,我们生成 Token ,产生浮点数,规模非常大。这就像在最后一次工业革命中,当人们意识到可以建立工厂,对其施加能量,这种看不见、有价值的东西叫电,就出现交流发电机。

100 年后, 200 年后,我们现在正在创建新型电子 Token ,使用我们称为工厂的基础设施, AI 工厂来生成这种新的、极其有价值的东西。一个叫做 AI 的新产业,已经出现。

我们将讨论这个新行业的很多事情,包括接下来如何进行计算,你因这个新行业而构建的软件类型,新软件,你会如何看待这个新软件,以及这个新兴行业的应用情况。然后,我们也许会探讨接下来会发生什么,我们今天如何开始为接下来事情做准备。

加速计算影响巨大,英伟达已经构建数字李生生态系统

加速计算已经到达临界点

英伟达的灵魂,位于计算机图形学、物理与 AI 的交叉点。所有这些,都在计算机内部交叉,在 Omniverse 虚拟世界模拟中。

我们今天要向你展示的所有内容,都是模拟,而非动画。它之所以美丽,是因为它是物理学,世界是美丽的。

这太神奇了,它是用机器人制作的动画,是用 AI 制作的动画。你一整天都会看到的东西,都是在 Omniverse 中完全模拟生成的。你将要享受的是世界上第一场音乐会,一切都是自制的。你将要观看一些家庭视频,请坐下来尽情享受。

我爱英伟达,加速计算已达到临界点,通用计算已经失去动力。我们需要另一种计算方式,这样我们可以继续扩展,降低计算成本,可以继续消耗越来越多的计算,我们正在追求的是可持续性。

英伟达已经构建数字孪生生态系统

加速计算,已经在与通用计算比较中,展现出显著优势。在我所参与的每一个行业中,我都有大量案例可以向你展示,其影响力巨大,在任何行业中,它的重要性都超过了我们自己的行业。

这些行业都在使用模拟工具,来创建产品。这并不是为了降低计算成本,而是为了扩大计算规模。我们希望能够进行模拟,我们所做的整个产品都是完全高保真、完全数字化的,这就是我们所说的数字孪生。

我们希望设计它、构建它、模拟它、操作它,完全数字化。为了实现这一目标,我们需要加速整个行业发展。

英伟达合作伙伴

今天,我想宣布,我们有一些合作伙伴正在加入我们的旅程,他们将加速他们的整个生态系统,以便我们可以将世界带入加速计算的时代。

加速计算还有一个好处。当你的计算速度加快时,你的基础设施将与 GPU 耦合。当这种情况发生时,生成 AI 的基础设施将完全相同。

我很高兴地宣布,我们已经与一些非常重要的合作伙伴建立关系。

ANSYS 是世界上一些最重要的公司,他们对世界制造的产品进行工程模拟。我们正在与他们合作,加速 ANSYS 生态系统,将 ANSYS 连接到 Omniverse 数字孪生。

令人惊叹的是, NVIDIA GPU 加速系统的安装基础,已经遍布世界各地、每个云、每个系统。他们加速的应用程序,将有一个巨大的安装基础可供服务。最终用户将拥有令人惊叹的应用程序,系统制造商与 CSP 也会有巨大的客户需求。


新思科技 Synopsys NVIDIA 第一个软件合作伙伴,他们在英伟达成立的第一天就参与其中。新思科技通过高水平设计,彻底改变芯片行业。我们将采取行动来加速 Synopsys 发展。

我们正在加速计算光刻,这是一项鲜为人知,但极其重要的应用。为了制作芯片,我们必须将光刻技术推向极限。

NVIDIA 创建了一个领域特定库,这加速了计算光刻。令人难以置信的是,一旦我们能够加速,并由软件定义台积电的全部,台积电今天宣布他们将使用 NVIDIA Qlitho 投入生产。一旦软件定义并加速,下一步就是将生成式 AI 应用于半导体制造的未来,进一步推动几何学的发展。

Cadence ,构建了世界上重要的 EDA SDA 工具,我们也在使用 Cadence

这三个公司, Ansys Synopsys Cadence ,我们基本上是在构建 NVIDIA 。我们共同致力于加速 Cadence 。他们还利用 NVIDIA GPU 构建超级计算机,以便为他们客户提供服务。

他们就可以进行流体动力学模拟,基本上是一百、一千倍的规模,实时风洞。 Cadence Millennium 内置 NVIDIA GPU 的超级计算机,是一家构建超级计算机的软件公司,我很高兴看到这一点。我们正在一起构建 Cadence Copilot 。想象一下有一天,当 Cadence 可以成为 Synopsys Ansys 等工具提供商时,将为你提供 AICopilot

这样我们就有成千上万的 Copilot 助理,帮助我们设计芯片、设计系统。我们还将把 Cadence 数字孪生平台,连接到 Omniverse

正如你在这里看到的趋势,我们正在加速世界上的 CAE EDA SDA ,以便我们能够在数字孪生中创造我们的未来。我们将把它们全部连接到 Omniverse ,这是未来数字孪生的基本操作系统。

Blackwell 面世,为何如此强大

根本性的创新让我们拥有更大的 GPU

受益于规模巨大的行业之一,你们都非常了解这一大型语言模型。基本上,自从 Transformer 被发明之后,我们能够以令人难以置信的速度扩展大型语言模型,每 6 个月有效翻倍。


你可能会问,现在怎么可能每 6 个月翻一番?我们已经发展了这个行业,到目前为止,我们已经增加了计算需求。原因很简单,如果你将模型大小加倍,大脑大小就会加倍,需要两倍的信息来填充它。每次将参数数量加倍时,还必须适当增加训练 Token 数量。这两个数字的组合,成为你必须支持的计算规模。

最新、最先进的 OpenAI 模型,大约有 1.8 万亿个参数。 1.8 万亿个参数,需要几万亿 Token 去训练。

几万亿个参数,大约是几万亿个 Token ,当你将它们两者相乘时,大约 30 40 500 亿,四万亿每秒浮点运算。

现在我们只需要做一些数学就可以了。所以你有 300 亿千万亿,一万亿就像善待动物组织 PETA 。因此,如果你有一个 PETA flop GPU ,你将需要 300 亿秒来进行计算与训练该模型, 300 亿秒大约需要 1 千年。

1 千年,这很值得。我想早点做,但这是值得的。当大多数人告诉我做一件事,要花多长时间时,我的答案通常是 20 年,这是值得的。我们可以下周做吗?等了 1 千年,我们需要更大的 GPU。

我们需要更大的 GPU ,我们很早就认识到这一点。我们意识到答案是将一大堆 GPU 放在一起,当然一路上创新一大堆东西,比如发明张量核心,推进 NVLink ,以便我们能够创造出实质上巨大的东西。 GPU 并通过来自 Mellanox InfiniBand 公司令人惊叹的网络,将它们连接在一起,以便我们可以创建这些巨型系统。

DGX1 是我们第一个版本,但它不是最后一个版本,我们一直在构建超级计算机。 2021 年,我们有 Selene ,大约 4,500 GPU 。进入 2023 年,我们建造了世界上最大的 AI 超级计算机之一,它刚刚上线,名为埃欧斯。

当我们正在构建这些东西时,我们正在努力帮助世界建造这些东西。为了帮助世界构建这些东西,我们必须首先构建它们。

我们制造芯片、系统、网络、执行此操作所需的所有软件。你应该看到这些系统,想象一下,编写一个在整个系统上运行、并分布计算的软件。

数千个 GPU ,内部是数千个较小的 GPU ,数以百万计的 GPU ,在所有这些之间分配工作,并平衡工作负载,以便你可以获得最大的能源效率,最佳的计算时间,降低你的成本等。

这种根本性创新,是什么让我们来到这里。

我们到了,正如我们看到的奇迹, ChatGPT 的出现,我们也意识到了,我们还有很长的路要走。我们需要更大的模型,我们将使用多模态数据来训练它,而不仅是互联网上的文本,我们将使用文本、图像、图形、图表来训练它。

正如我们所学的那样,将会有大量观看视频,以便这些模型。我们可以以物理学为基础来理解,为什么我们的手臂不能穿过墙壁,这些模型具有常识。他们通过观看世界上大量视频与各种语言的结合来学习。

当我们尝试学习时,他们会像我们一样,使用合成数据生成等工具。我们可能会用我们的想象力,来模拟它将如何结束,就像我在准备这个主题演讲时所做的那样,我一直在模拟它的过程。我希望事情会成功,我脑子里也有这个想法。

当我正在模拟这个主题演讲的结果时,有人确实提到另一位表演者。她的表演,完全是在跑步机上进行的,这样她就能以饱满的能量来完成任务,我没有那样做。如果我在大约 10 分钟内听到一点风声,你就知道发生了什么。

我们在哪里?我们坐在这里使用合成数据生成,我们将使用强化学习,我们将在我们的脑海中练习。我们将让 AI AI 一起工作,就像学生、老师与辩手一样互相训练。所有这些,都将增加我们模型大小,这将增加我们拥有的数据量,并且我们将不得不构建更大的模型。 GPU Hopper 非常棒,但我们需要更大的 GPU

Blackwell 面世,不止是芯片

我想向你介绍一下,至极大的 GPU ,以 Blackwell 名字命名。他是一位数学家、博弈论学家,我们认为这是一个完美的名字。

Blackwell ,你们会喜欢这个。

Blackwell 不是芯片, Blackwell 是一个平台的名称。

人们认为我们制造 GPU ,我们确实这么做,但 GPU 外观已不再像以前那样。如果你愿意的话,这是 Blackwell 系统的核心。公司内部不叫 Blackwell ,只是一个数字。

这是 Blackwell ,坐在旁边的是当今世界上生产的最先进的 GPU ,这是 Hopper Hopper 改变了世界,这是 Blackwell 。没关系, Hopper ,你很不错。 2,080 亿个晶体管,两个芯片之间有一条小线,这是第一次两个芯片如此邻接在一起,以这样方式,两个骰子认为这是一个芯片。

每秒 10TB 之间有 10TB 数据, Blackwell 芯片两侧,不知道它们在哪一侧,没有内存局部性问题,没有缓存问题。

这只是一块巨型芯片,当我们被告知 Blackwell 野心超出了物理学极限时,工程师说那又怎样。这就是发生的事情,这就是 Blackwell


Blackwell 的两类系统,远超 Hopper 速度

芯片及其进入两种类型的系统:第一种。形状适合,功能与 Hopper 兼容,你在 Hopper 上滑动,然后你推入 Blackwell ,这就是为什么坡道的挑战之一将如此高效。世界各地都有安装 Hopper ,它们可能是的相同的基础设施,相同的设计。电源、电力、热量、软件相同,将其推回原处,这是针对当前 HGX 配置的 Hopper 版本,这就是第二个 Hopper 的样子,现在这是一个原型板。

第二个问题是,随着技术发展,产品价格会降低,这对所有消费者来说都是好消息。当前产品价格相当高,这是因为它是一种创新的启动产品。







请到「今天看啥」查看全文