专栏名称: 国金电子研究
电子首席骆思远及其团队倾心打造,为投资者挖掘行业投资价值保驾护航!
目录
相关文章推荐
武汉本地宝  ·  湖北春节返程省内易拥堵路段汇总! ·  5 天前  
武汉本地宝  ·  2025武汉元宵节灯会活动来了!每个都想去! ·  3 天前  
武汉本地宝  ·  2月4日上高速,2月5日下高速免费吗? ·  4 天前  
武汉本地宝  ·  春节假期结束!武汉本周上班时间有变! ·  3 天前  
51好读  ›  专栏  ›  国金电子研究

【国金电子】英伟达GTC analyst call纪要

国金电子研究  · 公众号  ·  · 2024-03-20 11:26

正文






+

投资逻辑


我们昨天讨论了五件事,第一个当然是新工业革命。有两件事正在发生,首先是从通用计算转向加速计算。如果看一下通用计算的趋势,你会发现这些年来它的发展速度已经大大放缓。事实上,我们知道它已经放缓了大约十年,人们只是不想解决这个事,但你现在真的必须处理掉。可以看到人们因此延长了数据中心的折旧周期。可以购买一套全新的通用服务器,但它不会显着提高整个数据中心的吞吐量。因此不妨继续使用现有的产品一段时间。这种趋势永远不会逆转。通用计算已经达到了这个目的。我们将继续需要它,并且有很多软件在其上运行,但很明显我们应该尽一切努力加速。

许多不同的行业已经得到了加速,其中一些工作负载非常大,我们确实希望进一步加速。但加速计算的好处是非常明显的。昨天我没有花时间在我真正想要的领域之一,即数据处理。 NVIDIA 有一套库。公司做几乎任何事情之前,必须处理数据。而且数据量非常大。世界各地正在创建ZB级别的数据,每隔几年就会翻一番,尽管计算量并不是每隔几年就会翻一番。

所以传统计算在数据处理的曲线的错误一侧。如果不转向加速计算,数据处理费用就会不断上涨。对于很多认识到这一点的公司来说,比如阿斯利康、visa、美国运通、万事达卡,以及我们合作的很多很多公司,他们已经将数据处理费用减少了 95%,基本上减少了 20 倍。到目前为止,我们的名为rapids的库的加速很厉害, Spark的发明者创办了一家名为Databricks的伟大公司,他们是云大规模数据处理公司,他们宣布他们将Databricks 就是他们的光子引擎,这是他们皇冠上的宝石,他们将使用 NVIDIA GPU 来加速这一过程。

加速的好处当然是为客户带来节省,而且重要的是这样可以继续可持续地计算。否则处于曲线的错误一侧。永远不会到达曲线的右侧。因此必须加速计算。我们对算法的加速速度如此之快,以至于计算的边际成本在过去十年中大幅下降,使得这种称为生成式人工智能的新软件开发方式成为可能。

如你所知,生成式人工智能需要大量的失败、大量的计算。这不是正常的计算量,而是疯狂的计算量。然而,现在消费者可以以经济高效的方式使用名为 ChatGPT 的令人难以置信的服务。因此,加速计算已经降低了计算的边际成本,从而实现了做其他事情的新方法。

这种新方式是由计算机用数据作为原材料编写的软件。你向它加入能源。通过家偶偶 GPU 超级计算机。由此产生的就是我token。当与 ChatGPT 交互时,将获得一切——它会生成token。现在,该数据中心不是一个普通的。它不是您过去所了解的数据中心。其理由是这样的。它没有被很多人共享,并没有做很多不同的事情。,而是24/7 运行一个应用程序。它的工作不仅仅是省钱,它的工作是赚钱。这是一家工厂。

这与上次工业革命的交流发电机没有什么不同。进来的原材料没有什么不同,都是水。他们将能量转化为电能。现在是数据进入其中。它使用数据处理进行完善,当然还有生成人工智能模型。由此产生的是有价值的代币。这个想法是我们将应用软件的基本方法。生成token有些人称之为推理,这种生成软件、生成数据、与你交互的方式,ChatGPT正在与你交互。这种与你合作、与你合作的方法,你可以随心所欲地扩展,副驾驶到人工智能代理,你可以随心所欲地扩展这个想法,但基本上是相同的想法。它正在生成软件,它正在生成token,它来自于一个叫做 AI 生成器的东西,我们称之为 GPU 超级计算机。

对于另外两个想法也是这样。一是我们今天使用的传统数据中心应该加速,而且确实如此。它们正在现代化,很多很多,越来越多的行业一个接一个。因此,世界上数万亿美元的数据中心肯定有一天会全部加速。问题是,需要多少年才能完成,但由于第二个动力,即它在人工智能方面的令人难以置信的好处,它将进一步加速这一趋势。

第二种类型的数据中心,称为交流发电机,或者人工智能发电机或人工智能工厂,正如我所描述的那样,这是一个全新的东西。它是一种全新类型的软件,产生一种全新类型的宝贵资源,它将由公司、行业、国家等创造出来一个新的行业。

我还谈到了我们的新平台。人们对blackwell有很多猜测。 Blackwell 既是系统核心的芯片,但它实际上是一个平台。它基本上是一个计算机系统。 NVIDIA 的生意并不是制造芯片。我们构建了一个完整的超级计算机,从芯片到系统再到互连、NVLink、网络,但非常重要的是软件。你能想象一下家里有堆积如山的电子产品吗,将如何对其进行编程?有了多年来为了使其有效而创建的所有库,你将拥有刚刚带入公司的价值数十亿美元的资产。任何时候不使用它都会花费你的钱,而且费用不可思议了。因此,我们不仅能帮助公司购买芯片,还能帮助他们开发系统并投入使用,然后一直与他们合作来制造它——让它得到更好、更好、更好的使用。

这就是 NVIDIA 的生意。我们称之为 Blackwell 的平台拥有所有与之相关的组件,我在演示结束时向您展示了这些组件,了解我们所构建的内容的规模。所有这些,然后我们拆解。我们构建了这个垂直整合的东西,但我们以一种可以拆卸的方式构建它,并且客户可以购买不同部分,因为也许您想将它连接到 x86。也许客户想将其连接到 pcie。也许客户想通过光学器件连接,也许想要拥有非常大的 NVLink 域,也许您想要更小的 NVLink 域,也许可以使用arm处理器,也许想使用以太网,虽然以太网不太适合人工智能。以太网不适合人工智能是有原因的。但你可以让以太网非常适合人工智能。就以太网行业而言,它被称为超级以太网。因此,大约三四年后,超级以太网就会出现,这对人工智能来说会更好。但在那之前,这对人工智能来说并不好。这是一个很好的网络,但它不利于人工智能。所以我们扩展了以太网,我们在其中添加了一些东西。我们称之为 Spectrum-X,它基本上执行自适应路由。它进行拥塞控制。它起到噪音隔离的作用。

AI并不是平均吞吐量,与网络的平均吞吐量无关,而网络的平均吞吐量正是以太网的设计目的,即最大平均吞吐量。人工智能只关心最后一个部分什么时候交出产品,基于根本不同的设计点。如果您针对最高平均水平与最差学生进行优化,您将提出不同的架构。人工智能已经将所有归为所有,只要在算法、transformer算法、专家混合算法中查找,就会看到所有这些 GPU 都必须相互通信,最后一个提交答案的 GPU 会阻碍所有人。这就是工作原理。这就是网络产生如此大影响的原因。将所有东西联网吗,但会损失 10%、20% 的利用率,如果计算机价值 10,000 美元,那么 10% 到 20% 的利用率还不多。但如果计算机价值 20 亿美元,那么 10% 到 20% 的利用率就很大了。这就是为了超级计算机付费的原因

无论如何,我展示了所有这些不同组件的示例,我们公司创建了一个平台以及与之相关的所有软件,所有必要的电子设备,然后我们与公司和客户合作将其集成到他们的数据中心,因为也许他们的安全性不同,也许他们的热管理不同,也许他们的管理平面不同,也许他们只想将其用于一个专用的人工智能,也许他们想将其出租给很多人来做不同的人工智能。用例非常广泛。也许他们想要构建一个本地部署并在其上运行 VMware。也许有人只想运行 Kubernetes,有人想运行 Slurm。

我们考虑了所有这些因素,经过相当长的一段时间,我们现在已经弄清楚如何为每个人提供服务。因此,我们可以大规模建造超级计算机。但基本上 NVIDIA 所做的就是建立数据中心。好的。我们将其分解成小部件,然后将其作为组件出售。人们因此认为我们是一家芯片公司。

我们做的第三件事是讨论这种称为 NIM 的新型软件。这些大型语言模型堪称奇迹。 ChatGPT 是一个奇迹。这不仅是一个奇迹,还在于它的团队能够让您以非常高的响应率与 ChatGPT 进行交互。这是一个世界级的计算机科学组织。从事这项工作的 OpenAI 团队是世界一流的,是世界上最好的团队之一。为了让每家公司都能够构建自己的人工智能、操作自己的人工智能、部署自己的人工智能、跨多个云运行,就必须有人为他们做计算机科学。我们决定创建工具和操作,而不是为每个模型、每个公司、每个配置都这样做,我们将第一次打包大型语言模型。

客户可以买它。您只需访问我们的网站,下载并运行即可。我们收费的方式是所有这些模型都是免费的。但是当运行它时,当在企业中部署它时,运行它的成本是每年每个 GPU 4,500 美元。基本上,是运行该语言模型的操作系统。就每个实例而言,每次使用的成本非常低。是非常实惠的。好处确实很大。我们称之为 NIM,即 NVIDIA 推理微服务。如果你接受了这些 NIM,你就会拥有各种类型的 NIM。你拥有计算机视觉的 NIM。将拥有语音和语音识别以及文本到语音的 NIM,并且将拥有面部动画。将拥有机器人关节。将拥有各种不同类型的 NIM。

这些 NIM使用的方式是从我们的网站下载它,然后根据客户的示例对其进行微调。客户会举一些例子。说NIM回答这个问题的方式并不完全正确。这在其他公司可能是正确的,但在我们公司就不正确。因此可以给提供一些正是希望的示例,展示工作产品。

我们有一个系统可以帮助tokenize这个过程,处理所有与之相关的人工智能,所有与之相关的数据处理,微调,评估,以便你的人工智能非常有效,第一,也非常垂类。之所以希望它非常垂类,是因为比如你是一家零售公司,客户不希望你的人工智能谈论一些随机的事情,而是无论问题是什么,它都会将其带回到方向上。所以护栏系统是另一个人工智能。因此,我们拥有所有这些不同的 AI 来帮助您定制我们的 NIM,并且您可以创建各种不同的 NIM。

我们为您提供了其中许多框架的一些。其中非常重要的一点是了解专有数据,因为每个公司都有专有数据。我们创建了一个名为“检索器”的微服务。它是最先进的,可以帮助获取数据库,该数据库是结构化或非结构化图像、图表或图表或其他任何内容,我们可以帮助嵌入。我们帮助您从这些数据中提取含义。然后我们把它称为语义,语义嵌入到向量中,该向量现在被索引到一个称为向量数据库的新数据库中,还有矢量数据库,然后就可以与它交谈。

所有这些都称为 Nemo,我们有专家为您提供帮助。然后我们将我们称为 DGX 云的规范 NVIDIA 基础设施放入全球所有云中。因此,我们在 AWS 中有 DGX 云,在 Azure 中有 DGX 云,在 GCP 和 OCI 中有 DGX 云。因此,我们与世界各地的企业公司合作,特别是企业 IT 公司,我们与他们一起创建这些伟大的人工智能,但当它们完成后,它们可以在 DGX 云中运行,这意味着我们正在有效地将客户带到世界的云中。像我们这样的平台,为系统制造商带来了客户,而 CSP 就是系统制造商。

他们租用系统而不是出售系统,但他们是系统制造商。我们将客户带到我们的 CSP,这是一件非常明智的事情,就像我们将客户带到 HP、Dell、IBM 和 Lenovo 等等,以及 Supermicro 和 Coreweave 等等,我们将客户带到我们的 CSP。如果您是一家平台公司,您就可以为生态系统中的每个人创造机会。因此,DGX 云使我们能够将所有这些企业应用程序落地到全球 CSP 中。他们希望在本地进行。我们昨天宣布与戴尔、惠普和其他公司建立了良好的合作伙伴关系,您可以将这些 NIM 放入他们的系统中。

然后我谈到了人工智能的下一波浪潮,这实际上是关于工业人工智能。世界上绝大多数工业都是重工业,而重工业从未真正从 IT 中受益。他们没有从很多设计和所有数字技术中受益。这不叫数字化,他们没有像我们的行业那样从数字化中受益。由于我们的行业已经完全数字化,因此我们的技术进步非常巨大。我们不称之为发现芯片。我们称之为设计芯片。为什么他们称之为发现药物,因为数量很多很复杂学,变化的影响很大,生命的进化速度与晶体管不同。因果关系更难监控,发生在大规模、大规模系统和大规模时间范围内。这些都是非常复杂的问题。工业物理学非常相似。所以我们终于有能力使用大型语言模型和相同的技术。如果我们可以对蛋白质进行token化,如果我们可以对单词进行token化,对语音进行token化,对图像进行token化,那么我们就可以对清晰度进行token化。我们可以token化移动的蛋白质,我们可以token化所有这些不同的东西。我们可以将物理学token化,然后我们就可以理解它的含义,就像我们理解单词的含义一样。如果我们能够理解它的含义并将其与其他模式联系起来,那么我们就可以进行生成式人工智能。12 年前我看到了它,我们公司通过 ImageNet 看到了它。真正的重大突破是在 12 年前。

我们正在寻找一种可以模仿我们的计算机软件。通过阅读我们的话语,它正在模仿我们话语的产生。为什么——例如,如果你可以token化单词并且可以token化发音,为什么它不能模仿我们并以 ChatGPT 所具有的方式概括它?,机器人技术的 ChatGPT 时刻即将到来。我们希望人们能够做到这一点。我们创建了这个操作系统,使这些人工智能能够在基于物理的世界中进行实践,我们称之为 Omniverse。

Omniverse 不是一个工具。 Omniverse 甚至不是一个引擎。 Omniverse 是 API,是增强其他人的工具的技术 API。因此,我对他们正在使用的公告感到非常兴奋 - 他们正在连接到 Omniverse API 以增强 3DEXCITE。微软已将其连接到 Power BI。rockwell已将其连接到他们的工业自动化工具。西门子已经连接到他们,所以是一堆基于物理的 API,它生成图像或清晰度,并且它连接了一大堆不同的环境。这些 API 旨在增强第三方工具的功能。我非常高兴看到它的采用,特别是在工业自动化领域。这就是我们所做的五件事。

NVIDIA 是做市场创造者,而不是抢份额的。原因是我们所做的一切在我们开始做的时候并不存在。事实上,即使在最初的 3D 电脑游戏中,当我们开始开发它时也不存在。所以我们必须去创建必要的算法。实时光线追踪在我们创建之前并不存在。因此,所有这些不同的功能在我们创建之前并不存在。一旦我们创建了它,就没有任何应用程序。所以我们必须去耕耘,和开发者一起去整合我们刚刚创造出来的这个技术,让应用程序能够从中受益。我刚刚为 Omniverse 解释了这一点。我们发明了它。我们没有从任何人那里拿走任何东西,为了让它发挥作用,我们现在必须与开发者,比如 Ansys、Cadence 等等合作。

我们需要开发人员利用我们的 API、我们的技术。有时它们采用 SDK 的形式。就 Omniverse 而言,我非常自豪它采用云 API 的形式,因为现在它非常容易使用,您可以以两种方式使用它,但是 API 更容易使用,我们在 Azure 云中托管 Omniverse。每当我们将其连接到客户时,我们就为 Azure 创造了机会。所以Azure是基础,他们的系统提供商。系统提供商曾经是 OEM,现在仍然如此,但系统提供商位于底层,开发商位于顶层。我们在中间发明技术。我们发明的技术恰好最后是芯片。首先是软件,没有开发商,就不会有芯片的需求。因此 NVIDIA 首先是一家算法公司,我们创建了这些 SDK。他们称它们为 DSL,即领域特定库。 SQL 是一个特定领域的库您可能听说过 Hadoop 是存储计算中的一个特定领域库。NVIDIA 的 cuDNN 可能是世界上除 SQL 之外最成功的特定领域库。 cuDNN 是特定于领域的库。它是深度神经网络的计算引擎库。如果没有 cuDNN,他们都无法使用 CUDA。于是cuDNN就被发明了。实时光线追踪光学器件催生了 RTX,这是有道理的。我们有数百个特定领域的库。 Omniverse 是一个特定领域的库。这些特定领域的库与软件方面的开发人员集成,然后当创建应用程序并且对该应用程序有需求时,就会为下面的基础创造机会。我们是创造市场的,不是抢市场份额的。

没有软件就无法创造市场。可以制造芯片来让软件运行得更好,但没有软件你就无法创造新市场。 NVIDIA 的独特之处在于,我们是唯一一家我相信能够创建自己的市场并注意到我们正在创建的所有市场的芯片公司。这就是为什么我们总是谈论未来。这些是我们正在努力的事情。我们真的——没有什么比与整个行业合作创建计算机辅助药物设计行业更让我高兴的了,而不是发现药物行业或者设计药物行业。

我们必须像药物芯片设计而不发现是芯片那样进行药物设计。因此,我预计明年的每一个芯片都会比以前更好,而不是像我在寻找松露一样,有些日子很好,有些日子不太好。我们的基础在底部。开发人员想要的东西非常简单。他们希望确保技术正常运行,他们必须解决问题,而他们无法通过任何其他方式解决问题。对于开发人员来说,最重要的是安装基础。原因是他们不出售硬件,如果没有人拥有运行它们的硬件,他们的软件就不会被使用。

开发人员想要的是安装基础从没有改变。如果你开发人工智能软件并且想要部署以便人们可以使用它,你需要安装基础。其次是系统公司,他们想要杀手级应用程序的基础公司。哪里有杀手级应用,哪里就有客户需求,哪里有客户需求,就可以销售硬件。事实证明这个循环非常难以启动。真正可以构建多少个加速计算平台?能否拥有一个用于生成式人工智能、工业机器人、量子、6G 以及天气预报的加速计算平台?如果要拥有所有这些不同的版本,其中一些擅长流体。其中一些擅长粒子。其中一些擅长生物学。其中一些擅长机器人技术。其中一些擅长人工智能。其中一些擅长 SQL。但事实是需要一个足够通用的加速计算平台。

现在NVIDIA已经花了我们很长时间,但我们基本上什么都跑。如果你的软件经过加速,我非常确定它可以在 NVIDIA 上运行。如果您有加速软件,我非常非常确定它可以在 NVIDIA 上运行。这就是NVIDIA的架构。我谈到每当我发表主题演讲时,我倾向于触及所有这些内容,其中的不同部分,一些我们在中间所做的一些新事情,6G将如何发生。当然是人工智能。为什么要使用人工智能?机器人 NIMO,NIMO 做了预安装,这意味着为什么算法出现之前。我们应该像机器人 NIMO一样拥有特定于其应用的 NIMO , 6G 当然将是软件定义的,当然将是人工智能。对于量子计算,我们应该成为量子计算行业的优秀合作伙伴。建设量子计算机,需要拥有世界上最快的计算机,对于模拟量子计算机,或是量子计算机的编程模型,不能只靠自己对量子计算机进行编程。需要有经典计算在旁边。量子就像一种量子加速器。我们已经做到了,所以我们与整个行业合作。总的来说,有一些非常伟大的东西。希望我能够涵盖。


【Q】从长远来看,您的软件业务会像芯片业务一样大吗?十年后NV还是不是一家芯片公司,或者会是什么样子?

大部分的演讲都是软件演讲,而且都是计算机科学家,他们在谈论算法。 NVIDIA 是什么——NVIDIA 软件堆栈涉及两件事。要么是帮助计算机运行得更好的算法,要么是TensorRT-LLM。这是一种极其复杂的算法,它以大多数编译器从未采用过的方式探索计算空间。如果没有超级计算机,TensorRT-LLM 甚至无法构建。未来的 TensorRT、未来的 TensorRT-LLM 很可能实际上只需要一直在超级计算机上运行,以便为每个人的计算机优化人工智能。所以优化问题非常非常复杂。这就是我们创建的软件优化、运行时的一个例子。

我们创建的第二个软件是只要有一种其中的原理是众所周知的算法,例如navier stokes方程、薛定谔方程,也许在加速计算或实时方式光线追踪中的应用是一个很好的例子。实时从未被实现,navier stokes算法是极其复杂的算法。能够以实时运行的方式重构也非常复杂,需要大量的发明,我们公司的一些计算机科学家获得了奥斯卡奖。他们是屡获殊荣的计算机科学家,因为他们已经大规模地解决了这些问题,以至于可以将其用于电影。

他们的发明、算法、数据结构本身就是计算机科学。我们将致力于这两层。然后当你打包它时,这很有用。现在人工智能已经使这项技术变得如此接近应用,分子模拟曾经是大学里要做的事情。现在你可以在工作中做到这一点。当我们现在为企业重新制定所有这些算法时,它就变成了企业软件。我们将把它们放在 NIM 中,我们将拥有数百个NIM,我们将制造并支持它们,维护它们并保持它们的性能等等,用来支持客户。我们将大规模生产 NIM。我们将整个软件的底层称为 NVIDIA AI Enterprise。 NIM 基本上是企业微服务中的人工智能。所以我的期望是,这将是一个非常大的业务,这是工业革命的一部分。如果你看到了,今天的 IT 行业、SAP 和伟大的公司、ServiceNow 和 Adobe、Autodesk ,这一层就是今天的 IT 行业。那不是我们要去的地方。我们将在上面一层进行操作。上面的一层是一堆人工智能和这些算法,实际上,我们是构建它们的合适公司。我们将与它们一起构建一些,我们将自己构建一些,但我们会将它们打包并在企业规模上部署。


【Q】关于潜在市场的规模,公司收入增长得快,公司大客户CAPEX当中给公司的营收占了30%、40%、50%,有时甚至更多,但当他们从生成人工智能中产生了多少钱相当于不到其销售额的 10%,这种差距还能持续多久呢?他们的CAPEX中有多少可以花在您的产品上。市场有多大?我们处于曲线的哪个位置?

我们能做多大,与市场的大小和我们销售的产品有关我们销售的是数据中心。我只是把它分成几部分。我们展示了一堆芯片。我们并不真正出售它。这些芯片本身并不能完全工作。你可以购买芯片,但它们不起作用。需要将它们构建到我们的系统中。系统软件和生态系统堆栈非常复杂。因此 NVIDIA 为 AI 构建了整个数据中心。我们只是把它分成几个部分。

数据中心规模为1万亿美元,其中2500亿美元是安装硬件的市场。我们将整个数据中心分成几部分出售,因此我们每年在这 2500 亿美元中所占的比例可能比销售芯片的人高很多很多。它可以是 GPU 芯片、CPU 芯片或网络芯片。 NVIDIA 使数据中心规模化的加速计算平台得以实现。我们在2500 亿美元的比例可能会高于过去。

现第二个问题可持续性如何。对此有两个答案。购买 NVIDIA 的原因之一是为了人工智能。如果你只是构建 TPU,如果你的 GPU 仅用于一个应用程序,那么必须 100% 相信这一点。如今可以通过人工智能实现货币化。即token产生的回报。价值不只是 AI  token生成,而是 AI 训练模型,而且非常重要的是,降低计算费用、加速计算、可持续计算、节能计算,这就是 NVIDIA 的核心工作。只是我们做得太好了,以至于创造了生成式人工智能。这有点像我们的第一个应用程序是计算机图形学。第一个应用是游戏。我们做得很好,人们忘记了,我们是一家加速计算公司。他们认为我们是一家游戏公司,整整一代年轻人都长大了。一旦他们学会了使用 RIVA 128,他们用 GeForce 上大学,然后当他们最终成为成年人时,他们认为我们是一家游戏公司。我们在加速计算方面做得非常好。我们在人工智能方面做得非常好,人们认为这就是我们所做的一切。但加速计算的规模是万亿美元——每年 2500 亿美元。每年 2500 亿美元应该用于有或没有人工智能的加速计算,只是为了可持续计算,只是为了处理 SQL,这是世界上最大的计算消耗之一。无论如何,每年应该有 2500 亿美元用于加速计算。除此之外还有生成式人工智能。我认为生成式人工智能的可持续性,认为我们将生成文字、图像、视频、蛋白质、化学物质、动力作用、操纵。我们将生成预测。我们将制定账单计划。我们将生成物料清单,我们将生成清单。


【Q】想问一下 CPU 和 GPU 之间的相互作用。昨天很多测试上都是围绕 Grace Blackwell 系统进行的,与 Grace Hopper 相比,CPU/GPU 比率增加了一倍。您没有过多谈论与独立 GPU 相关的基准测试,这是转变吗?是否在这些人工智能服务器中寻找更多的 CPU 内容?如何看待您正在开发的 Arm CPU 与 x86 之间的相互作用,似乎您对未来的 x86 方面的重视程度有所降低?

我认为 x86 和 Arm 都非常适合数据中心。 Grace 之所以如此建造是有原因的Arm的好处是我们可以围绕CPU塑造NVIDIA系统架构。这样我们就可以创建一个称为chip to chip的东西,即连接 GPU 和 CPU 的 NVLink。我们可以使两侧保持一致,当 CPU 触及寄存器时,它会使 GPU 侧的同一寄存器无效。因此,双方可以在一个变量上协调一致地合作。今天在 x86 和外设之间无法做到这一点,因此我们能够解决一些其他方式无法解决的问题。因此,Grace Hopper 非常适合多物理场 CAE 应用。有些是在CPU上运行,有些是在GPU上运行。它非常适合 CPU 和 GPU 的不同组合。这样我们就可以拥有与每个 GPU 或两个 GPU 相关联的非常大的内存。所以我们可以解决其中一些问题,例如数据处理Grace Hopper非常出色。我们在x86 的 B100、B200 和 GB200上展示了 Hopper 与 Blackwell。在这种情况下,Blackwell 的优势并不是因为 CPU 更好。这是因为就 Grace Blackwell 而言,我们能够创建更大的 NVLink域。更大的 NVLink领域对于下一代人工智能来说确实非常重要。接下来的三、五年,如果确实想要良好的推理性能,那么将需要 NVLink。这就是我试图传达的信息。我们将更多地讨论这一点。现在非常清楚,这些大型语言模型永远无法适应单个 GPU。为了有足够的响应能力并具有高吞吐量以降低成本,需要能容纳的更多的 GPU。为了让大量 GPU 一起工作,IO 会妨碍您需要 NVLink。 NVLinks 的优势在推理是前所未有的。这就是 5X 和 30X 之间的区别,还有 6X,都是 NVLink。Grace 使我们能够完全按照我们的需要构建系统,而使用 x86 则更难做到这一点。但我们两者都支持。我们将有两个版本,对于 B100,它只是接替H100 和 H200 所在的位置。hopper向blackwell的过渡是即时的。我们在架构的极限下获得了极其出色的性能以及轻松的过渡。


【Q】关于 NIM,可以让人们更快地进入 AIE 并吸引客户,能否向我们概述一下您的公司在更广泛的企业领域的发展情况,以及人们可以通过哪些不同的方式进入人工智能领域?第二个话题是关于能源,您昨天介绍的一些系统功率高达 100 千瓦或以上。公司如何与业界合作来为这些系统提供能源?

我先从第二个开始。电力输送对于计算机而言,100 千瓦是很多,但100KW是大宗商品,世界需要的电力远远超过 100千瓦。绝对功率大小不是问题。电力的输送不是问题。提供电力的物理原理不是问题。而且冷却不是问题。这都不是物理问题。这些都不需要发明。我们非常认真地对待它。我们一直在考虑供应链规划,这就是我们与我们建立良好合作伙伴关系的原因。如果你看看Vertiv,会有我们共同合作的报纸头版。Vertiv 和 NVIDIA 工程师正在研究冷却系统。Vertiv 在设计液冷和其他数据中心的供应链中非常重要。我们与西门子有着良好的合作伙伴关系。我们与罗克韦尔、施耐德建立了良好的合作伙伴关系。这与与台积电、三星、纬创等建立良好的合作伙伴关系完全相同。我们公司的供应链关系非常广泛和深入。我们建立自己的数据中心这一事实确实有帮助。我们建造超级计算机已经有一段时间了。这不是我们第一次。我们的第一台超级计算机是 2016 年的 DGX-1,这具有一定的前瞻性。我们每年都会建造一个,今年我们将建造几个。因此,我们正在构建它的事实让我们感觉到我们正在与谁合作是最好的。NIM有两个进入企业的方式。他们都很重要。一种方法是我们将创建这些 NIM。我们将把它放在我们的网站上。我们将联系 GSI 和许多解决方案提供商,他们将帮助公司将这些 NIM 转化为应用程序。这将是一个完整的事情。进入市场包括大型 GSI 和小型专业 GSI 等等,我们在该领域有很多合作伙伴。我认为另一个领域确实非常令人兴奋。我认为这确实是世界上数万亿美元的企业将采取重大行动的地方。他们今天创造工具。未来他们将为您提供工具和copilot。世界上最普遍的工具是 Office。现在有了office copilot。还有一个工具对于 NVIDIA Synopsys、Cadence、Ansys 来说非常重要。我们希望他们所有人都有copilot。我们正在为自己的工具构建copilot。我们称它们为 ChipNeMo。 ChipNeMo 非常聪明。 ChipNeMo 现在能够理解 NVIDIA Lingo、NVIDIA Chip Talk,并且知道如何编写 NVIDIA 程序。我们的每位工程师首先要告诉他们的是,这里是 ChipNeMo,无论你吃午饭,他们都会立即富有成效,我们的copilot是建立在我们自己的工具之上的。大多数公司可能无法做到这一点,我们可以教 GSI 做到这一点,但在 Cadence 和其他工具领域,他们将建立自己的copilot。他们会将他们出租,就像雇用他们作为工程师一样。我认为他们正坐在一座金矿上。 SAP 将会这么做。 ServiceNow 将会做到这一点。就 SAP 而言,ABAP 就是这样,这是一种只有 SAP 才会喜欢的语言,正如你所知,ABAP 对于世界 ERP 系统来说是一种非常重要的语言。每个公司都依靠它运行。我们使用ABAP。所以现在他们必须创建一个 Chat ABAP 和 Chat ABAP,就像我们为 Omniverse 创建的 ChipNeMo 或 ChatUSD 一样,西门子将这样做,罗克韦尔将这样做,我认为这是另一种方式,你进入企业,现在的服务将做到这一点。他们正在建造许许多多的copilot。这就是他们如何在当前行业之上创建另一个行业,这几乎就像人工智能劳动力行业。


【Q】我还有一个关于 TAM 的问题,因为到目前为止 H100 几乎都是greenfield。B100 可能是第一次的brownfield升级,您谈论的是 市场空间其中大部分增长来自升级现有安装基础吗?

我们正在升级数据中心中最慢的计算机即 CPU。这就是应该发生的事情。然后最终你会到达ampere,然后到达hopper。在接下来的几年里,你将开始看到我们自己的基础设施的更换周期。但是我认为这不是目前资本的最佳利用方式。ampere的生产力非常高。


【Q】关于推理的,您在 与 H100 的比较方面提供了 B100 的一些良好性能数据,您向客户传达的信息是什么?您认为它与 ASIC 或业内其他推理平台相比如何?

我认为对于语言模型,带有transformer和 NVLink 的 Blackwell 大型语言模型将非常难以克服。原因是问题的维度太大了。还有我谈到的 TensorRT-LLM 这个探索工具, Tensor 核心下方的架构是可编程的。 NVLink 允许您以非常低的损耗连接大量协同工作的 GPU,64 个 GPU 在编程上与一个 GPU 是相同的。当您有 64 个 GPU 且没有 NVLink 时,如果必须通过以太网等网络,那就浪费了。因为它们都必须相互通信,所以称为 all to all。每当所有的芯片都必须相互通信时,最慢的链路就是瓶颈,它定义了吞吐量。所以我们必须把它变成 NVLink。现在我们让所有 GPU 一起工作,一次生成一个token,所以这是一个非常复杂的并行计算问题,我认为blackwell已经提高了很多标准对于ASIC和其他芯片。


【Q】关于您的定价策略的问题。从历史上看,您谈到购买越多,节省越多。但听起来 Blackwell 的初始定价可能比您提供的生产力要低。这可能会如何促使您改进定价策略,我们应该如何考虑该结构中的标准化利润率?

我们创建的定价始终从 TCO 开始。我们也希望拥有不属于客户主体的TCO。因当客户比如只有一个特定的领域时,那么客户可以根据该一种应用程序设置 TCO。这样TCO 真的非常非常高,但市场规模却很小。每一代我们的市场规模都在不断增长,我们希望让整个市场都能买得起 Blackwell。这是一个自我承担的问题。当我们解决一个更大的问题的 TCO 时,一些客户将获得太多的价值。我们可以让业务变得更简单,拥有一种基本产品,就能够支持一个非常非常大的市场。果市场出现分歧,那么我们总是可以进行细分,但今天还远远没有做到这一点。我们有机会创造一种产品,为许多人提供非凡的价值,并为所有人提供极高的价值。


【Q】展示的最令人印象深刻的规格似乎是 GB200 ,您刚刚将其描述为拥有更大 NVLink 域的功能。您能对比一下 GB200 和 GH200 所做的事情吗?为什么你认为这一次它可能是一个更大的产品?

简单的答案是Grace Hopper,在它真正能够起飞之前,Grace Blackwell 已经在这里了。GH承担了hopper没有的额外负担。 A100 变成了 H100,将变成 B100,特定的用例已经相当完善,我们将继续前进。软件是为此而构建的。人们知道如何操作它。Grace Hopper 有点不同,它解决了我们之前没有很好解决的一类新应用程序。我之前提到过其中一些。 CPU 和 GPU 的多物理问题必须紧密配合、非常大的数据集等等。GH非常擅长解决这类问题,所以我们开始为此开发软件。目前,我对大多数客户的建议是,仅适合 Grace Blackwell 的装备,并且我已向他们提供了该建议。他们与 Grace Hopper 所做的一切在架构上都将完全兼容。我建议他们将所有精力投入到 Grace Blackwell 上,因为它好多了。


【Q】关于机器人的问题。你们提到机器人技术可能已经接近其 ChatGPT 时刻。您能描述一下这意味着什么以及您从哪里开始看到机器人的进化有点像我们的日常生活吗?

两年前,我展示了地球2。两年后,我们有了这个新算法,能够进行3公里范围内的区域天气预报。你需要做的超级计算机比你目前在 NOA 和欧洲等地进行天气模拟的超级计算机大25,000 倍。三公里分辨率是非常高的分辨率,天气模拟还需要大量所谓的ensemble,世界看起来很混乱,要模拟大量的分布,采样大量不同的参数,大量不同的扰动,并尝试找出该分布是什么。为了预测一周后的天气情况,尤其是可能变化如此之大的极端天气,需要大量的样本。我们基本上是在进行 10,000 次天气模拟,因为我们训练人工智能来理解物理,而它在物理上是可能的,并且不会产生幻觉,所以它必须理解物理定律等。就在两年前,我今天展示了它,我们连接到了世界上最值得信赖的天气来源。我们将帮助人们了解世界各地的区域天气情况。如果您是一家运输公司并且需要了解天气状况。如果您是保险公司,您需要了解天气状况。如果你在东南亚地区,那里有很多飓风和台风之类的事情,你需要一些这种技术。我们将帮助人们适应他们的地区和用例。ChatGPT 时刻的工作原理是这样的。问问 ChatGPT 发生了什么?发生了几件事。它从大量人类例子中学习。这些话是我们写的,它从我们人类的例子中学习并将其概括。所以它不会重复这句话。因此它可以理解上下文并生成区域形式。它现在可以生成token。现在我要把一切都带回token中。忘记言语,现在只是象征。使用我刚刚使用的所有相同单词,但用token替换单词。如果我能弄清楚如何与这台计算机通信,这个token意味着什么,如果我可以将其token化,就像当你进行语音识别时,你标记了我的声音。就像我们重建蛋白质一样,我们将氨基酸token化。可以数字化一种简单的方式来表示每个数据块。因此,一旦你可以将其token化,那么你就可以学习它。我可以学习和概括它,然后生成 - 我刚刚做了 ChatGPT 时刻,现在问题空间要复杂得多,因为它是物理问题。ChatGPT 的伟大发明是什么,强化学习、人类反馈对齐。 Omniverse 是做什么用的呢?在机器人中,如何进行反馈?这是物理反馈,它产生了一个去拿起杯子的动作,但它把杯子打翻了。它需要强化学习来知道何时停止。这个反馈系统不是人类的。这个反馈系统就是物理学。这种物理模拟反馈被称为 Omniverse。Omniverse 是强化学习、物理反馈,它将人工智能扎根于物理世界,就像强化学习人类反馈将人工智能扎根于人类价值观一样。我所做的就是概括了通用人工智能。通过概括它,我可以在其他地方重新应用它。因此,我们不久前进行了这一观察,并开始为此做准备。现在你会发现 Isaac Sim,这是一家位于 Omniverse 之上的健身房,对于任何从事这些机器人系统的人来说都会非常非常成功。我们已经为机器人创建了操作系统。







请到「今天看啥」查看全文


推荐文章
武汉本地宝  ·  湖北春节返程省内易拥堵路段汇总!
5 天前
武汉本地宝  ·  2月4日上高速,2月5日下高速免费吗?
4 天前
算法与数据结构  ·  这本算法书写了七年
8 年前
python  ·  系列:Python扩展模块(2)
7 年前
叔叔恋爱学  ·  怎样治疗拖延症
7 年前
红楼梦学刊  ·  《红楼梦》与明清女子文学创作漫谈
7 年前