专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安 ... · 2 天前

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安 ... · 2 天前

财联社AI daily · 李飞飞团队“50美元”复现DeepSeek ... · 2 天前

昌吉日报 · 原来昌吉人都在这里“过年”…… · 3 天前

双碳情报 · 美国能源部发布《储能战略和路线图》草案 · 3 天前

壹股经 · 2025.2.5智能监控预警信号，开门红！分 ... · 3 天前

壹股经 · 2025.2.5智能监控预警信号，开门红！分 ... · 3 天前

51好读 › 专栏 › 新智元

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

新智元 · 公众号 · · 2024-06-03 01:07

正文

新智元报道

编辑：编辑部

【新智元导读】刚刚，老黄又高调向全世界秀了一把：已经量产的Blackwell，8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350；英伟达惊人的产品迭代，直接原地冲破摩尔定律；Blackwell的后三代路线图，也一口气被放出。

就在刚刚，老黄手持Blackwell向全世界展示的那一刻，全场的观众沸腾了。

它，是迄今为止世界最大的芯片！

眼前的这块产品，凝聚着数量惊人的技术

如果用老黄的话说，它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」

8年内，1.8万亿参数GPT-4的训练能耗，直接疯狂降到1/350；而推理能耗则直接降到1/45000

英伟达产品的迭代速度，已经彻底无视摩尔定律。

就如网友所言，无所谓，老黄有自己的摩尔定律。

一手硬件，一手CUDA，老黄胸有成竹地穿过「计算通货膨胀」，放出豪言预测道——在不久的将来，每一个处理密集型应用都将被加速，每一个数据中心也肯定会被加速。

同时公开的Blackwell后三代路线图：Blackwell Ultra（2025年），Rubin（2026年），Rubin Ultra（2027年）

「买得越多，省得越多」的黄式数学公式，也再次亮相。

全新计算时代开启

演讲开篇，老黄最先放出了一个Omniverse模拟世界中的演示。

他表示，「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。

这一切都是物理世界中的模拟，它的实现，得益于两项基本的技术——加速计算和人工智能，将重塑计算机产业。

到目前为止，计算机行业已有60多年的历史，而现在，一个全新的计算时代已然开始。

1964年，IBM的System 360首次引入了CPU，通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等，所有我们今天所了解的技术，都是从这个时间点而来。

直到1995年，PC革命开启让计算走进千家万户，更加民主化。2007年，iPhone推出直接把「电脑」装进了口袋，并实现了云端链接。

可以看出，过去60年里，我们见证了2-3个推动计算行业转变的重要技术节点。

加速计算：一手GPU，一手CUDA

而如今，我们将再一次见证历史。老黄表示，「有两个最基础的事情正发生」。

首先是处理器，性能扩展已经大大放缓，而我们所需的计算量、需要处理的数据都在呈指数级增长。

按老黄的话来说，我们正经历着「计算通货膨胀」。

过去的20年里，英伟达一直在研究加速计算。比如，CUDA的出现加速了CPU负载。事实上，专用的GPU效果会更好。

当我们运行一个应用程序，不希望是一个运行100秒，甚至是100个小时的APP。

因此，英伟达首创了异构计算，让CPU和GPU并行运行，将过去的100个时间单位，加速到仅需要1个时间单位。

可见，它已经实现了100倍速率提升，而功耗仅增加的3倍，成本仅为原来的1.5倍。

英伟达同时为价值十亿美元的数据中心，配备了5亿美元的GPU，让其变成了「AI工厂」。

有了加速计算，世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」，买得越多，省得越多。

除了GPU，英伟达还做了业界难以企及的事，那就是重写软件，以加速硬件的运行。

如下图所示，从深度学习cuDNN、物理Modulus、通信Aerial RAN、基因序列Parabricks，到QC模拟cuQUANTUM、数据处理cuDF等领域，都有专用的CUDA软件。

也就是说，没有CUDA，就等同于计算机图形处理没有OpenGL，数据处理没有SQL。

而现在，采用CUDA的生态遍布世界各地。就在上周，谷歌宣布将cuDF加入谷歌云中，并加速世界上受欢迎的数据科学库Pandas。

而现在，只需要点击一下，就可以在CoLab中使用Pandas。就看这数据处理速度，简直快到令人难以置信。

老黄表示，要推行一个全新的平台是「蛋和鸡」的困境，开发者和用户，缺一不可。

但是经过20年的发展，CUDA已经打破了这个困境，通过全球500万开发者和无数领域的用户实现了良性循环。

有越多人安装CUDA，运行的计算量越大，他们就越能据此改进性能，迭代出更高效、更节能的CUDA。

「AI工厂」全栈重塑

2012年，神经网络AlexNet的诞生，将英伟达第一次与AI联系起来。我们都知道，AI教父Hinton和高徒当时在2个英伟达GPU上完成AlexNet的训练。

深度学习就此开启，并以超乎想像的速度，扩展几十年前发明的算法。

但由于，神经网络架构不断scaling，对数据、计算量「胃口」愈加庞大，这就不得不需要英伟达重新发明一切。

2012年之后，英伟达改变了Tensor Core，并发明了NvLink，还有TensorRT、Triton推理服务器等等，以及DGX超算。

当时，英伟达的做法没有人理解，更没人愿意为之买单。

由此，2016年，老黄亲自将英伟达首个DGX超算送给了位于旧金山的一家「小公司」OpenAI。

从那之后，英伟达在不断扩展，从一台超算、到一个超大型数据中心。

直到，2017年Transformer架构诞生，需要更大的数据训练LLM，以识别和学习一段时间内连续发生的模式。

之后，英伟达建造了更大的超算。2022年11月，在英伟达数万个GPU上完成训练的ChatGPT横空出世，能够像人类一样交互。

这是世界第一次看到了生成式AI。它会一次输出一个token，可以是图像、语音、文字、视频，甚至是天气token，全部都是关于生成。

老黄表示，「我们可以学习的一切，现在都可以生成。我们现在已经进入了一个全新的生成式AI时代」。

当初，那个作为超算出现的计算机，已经变成了数据中心。它可以输出token，摇身一变成为了「AI工厂」。

而这个「AI工厂」，正在创造和生产巨大价值的东西。

19世纪90年代末，尼古拉·特斯拉发明了AC Generator，而现在，英伟达正创造可以输出token的AI Generator。

英伟达给世界带来的是，加速计算正引领新一轮产业革命。

人类首次实现了，仅靠3万亿美元的IT产业，创造出能够直接服务于100万亿美元产业的一切东西。

传统的软件工厂，到如今AI工厂的转变，实现了CPU到GPU，检索到生成，指令到大模型，工具到技能的升级。

可见，生成式AI推动了全栈的重塑。

从Blackwell GPU到超级「AI工厂」

接下来就让我们看看，英伟达是如何将一颗颗地表最强的Blackwell芯片，变成一座座超级「AI工厂」的。

注意看，下面这块是搭载了Blackwell GPU的量产级主板。

老黄手指的这里是Grace CPU。

而在这里，我们可以清晰地看到，两个连在一起的Blackwell芯片。

在8年里，每一代英伟达芯片的Flops，都增长了1000倍。

与此同时，摩尔定律在这8年里，却似乎逐渐失效了。

即使和摩尔定律最好的时刻相比，Blackwell算力的提升也是惊人的。

这将直接导致的结果，就是成本的显著下降。

比如，训练一个1.8万亿参数、8万亿token的GPT-4所用的能耗，直接降至1/350！

Pascal需要消耗的，是1000吉瓦时，这就意味着，它需要一个1000吉瓦的数据中心。（1吉瓦=1000兆瓦）

而且如果这样的数据中心真的存在的话，训练也GPT-4也需要整整一个月的时间。

而100兆瓦的数据中心，大概需要一年。

这也就是为什么，ChatGPT这样的LLM，在八年前是根本不可能存在的。

如今有了Blackwell，过去的1000吉瓦时直接可以降到3吉瓦时。

可以说，Blackwell就是为了推理，为了生成token而生的。它直接将每token的能量降低了45000倍。

在以前，用Pascal产生1个token的消耗，相当于两个200瓦的灯泡运行2天。让GPT-4生成一个单词，大概需要3个token。这根本不可能让我们得到如今和GPT-4聊天的体验。

而现在，我们每个token可以只使用0.4焦耳，用很少的能量，就能产生惊人的token。

它诞生的背景，正是运算模型规模的指数级增长。

每一次指数级增长，都进入一种崭新的阶段。

当我们从DGX扩展到大型AI超算，Transformer可以在大规模数据集上训练。

而下一代AI，则需要理解物理世界。然而如今大多数AI并不理解物理规律。其中一种解决办法，是让AI学习视频资料，另一种，则是合成数据。

第三种，则是让计算机互相学习！本质上就和AlphaGo的原理一样。

巨量的计算需求涌来，如何解决？目前的办法就是——我们需要更大的GPU。

而Blackwell，正是为此而生。

Blackwell中，有几项重要的技术创新。

第一项，就是芯片的尺寸。

英伟达将两块目前能造出来的最大尺寸的芯片，用一条10TB/s的链路链接起来；然后再把它们放到同一个计算节点上，和一块Grace CPU相连。

在训练时，它被用于快速检查点；而在推理和生成的场景，它可以用于储存上下文内存。

而且，这种第二代GPU还有高度的安全性，我们在使用时完全可以要求服务器保护AI不受偷窃或篡改。

并且，Blackwell中采用的是第5代NVLink。

而且，它是第一代可信赖、可使用的引擎，

通过该系统，我们可以测试每一个晶体管、触发器、片上内存和片外内存，因此我们可以当场确定某个芯片是否出现故障。

基于此，英伟达将拥有十万个GPU超算的故障间隔时间，缩短到了以分钟为单位。

因此，如果我们不发明技术来提高超算的可靠性，那么它就不可能长期运行，也不可能训练出可以运行数月的模型。

如果提高可靠性，就会提高模型正常的运行时间，而后者显然会直接影响成本。

最后，老黄表示，解压缩引擎的数据处理，也是英伟达必须做的最重要的事之一。

通过增加数据压缩引擎、解压缩引擎，就能以20倍的速度从存储中提取数据，比现在的速度要快得多。

超强风冷DGX & 全新液冷MGX

Blackwell是一个重大的跃进，但对老黄来说，这还不够大。

英伟达不仅要做芯片，还要制造搭载最先进芯片的服务器。拥有Blackwell的DGX超算，在各方面都实现了能力跃升。

集成了Blackwell芯片的最新DGX，能耗仅比上一代Hopper提升了10倍，但FLOPS量级却提升了45倍。

下面这个风冷的DGX Blackwell，里面有8个GPU。

而对应散热器的尺寸也很惊人，达到了15kW，并且是完全的风冷。

如果你喜欢部署液冷系统呢？英伟达也有新型号MGX。

单个MGX同时集成72个Blackwell GPU，且有最新的第五代NVLink每秒130TB的传输速度。

NVLink将这些单独的GPU彼此连接起来，因此我们就得到了72个GPU的MGX

介绍完芯片，老黄特意提到了英伟达研发的NVLink技术，这也是英伟达的主板可以越做越大的重要原因。

由于LLM参数越来越多、越来越消耗内存，想要把模型塞进单个GPU已经几乎是不可能的事情，必需搭建集群。其中，GPU通信技术的重要性不亚于计算能力。

英伟达的NVLink，是世界上最先进的GPU互连技术，数据传输速率可以堪称疯狂！

因为如今的DGX拥有72个GPU，而上一代只有8个，让GPU数直接增加了9倍。而带宽量，则直接增加了18倍，AI FLops增加了45倍，但功率仅仅增加了10倍，也即100千瓦。

下面这个NVLink芯片，也堪称是奇迹。

人们之所以意识到它的重要性，是因为它将所有这些不同的GPU连接在一起，从而能够让十万亿参数的LLM运行起来。

500亿个晶体管，74个端口，每个端口400GB，7.2TB每秒的横截面带宽，这本身就是个奇迹。

而更重要的是，NVLink内部还具有数学功能，可以实现归约。对于芯片上的深度学习，这尤其重要。

有趣的是，NVLink技术，大大拓宽了我们对于GPU的想象。

比如在传统的概念中，GPU应该长成这样。

但有了NVLink，GPU也可以变成这么大。

支撑着72个GPU的骨架，就是NVLink的5000根电缆，能够在传输方面节省20kw的功耗用于芯片计算。

老黄拿在手里的，是一个NVLink的主干，用老黄的原话说，它是一个「电气机械奇迹」

NVLink做到的仅仅是将不同GPU芯片连接在一起，于是老黄又说了一句「这还不够宏大」。

要连接超算中心内不同的主机，最先进的技术是「无限带宽」（InfiniBand）。

但很多数据中心的基础设施和生态，都是基于曾经使用的以太网构建的，推倒重来的成本过高。

因此，为了帮助更多的数据中心顺利迈进AI时代，英伟达研发了一系列与AI超算适配的以太交换机。

网络级RDMA、阻塞控制、适应性路由、噪声隔离，英伟达利用自己在这四项技术上的顶尖地位，将以太网改造成了适合GPU之间点对点通信的网络。

由此也意味着，数百万GPU数据中心的时代，即将到来。

全球2800万开发者，即时部署LLM

在英伟达的AI工厂中，运行着可以加速计算推理的新型软件——NIM。

老黄表示，「我们创建的是容器里的AI」。

这个容器里有大量的软件，其中包括用于推理服务的Triton推理服务器、优化的AI模型、云原生堆栈等等。

现场，老黄再一次展示了全能AI模型——可以实现全模态互通。有了NIM，这一切都不是问题。

它可以提供一种简单、标准化的方式，将生成式AI添加到应用程序中，大大提高开发者的生产力。

现在，全球2800万开发者都可以下载NIM到自己的数据中心，托管使用。

未来，不再耗费数周的时间，开发者们可以在几分钟内，轻松构建生成式AI应用程序。

与此同时，NIM还支持Meta Llama 3-8B，可以在加速基础设施上生成多达3倍的token。

这样一来，企业可以使用相同的计算资源，生成更多的响应。

而基于NIM打造的各类应用，也将迸发涌现，包括数字人、智能体、数字孪生等等。

老黄表示，「NVIDIA NIM集成到各个平台中，开发人员可以随处访问，随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。

智能体组队，万亿美元市场

而智能体，是未来最重要的应用。

老黄称，几乎每个行业都需要客服智能体，有着万亿美元的市场前景。

可以看到，在NIM容器之上，大多数智能体负责推理，去弄清任务并将其分解成多个子任务。还有一些，它们负责检索信息、搜索，甚至是使用工具等。

所有智能体，组成了一个team。

未来，每家公司都将有大量的NIM智能体，通过连接起来组成一个团队，完成不可能的任务。

GPT-4o躯壳，老黄做出来了

在人机交互这方面，老黄和Sam Altman可以说是想到一起了。

他表示，虽然可以使用文字或语音形式的prompt给AI下达指令，但很多应用中，我们还是需要更自然的、更类人的交互方式。

这指向了老黄的一个愿景——数字人。相比现在的LLM，它们可以更吸引人，更有同理心。

GPT-4o虽是实现了无法比拟的类人交互，但缺少的是一个「躯体」。

而这次，老黄都帮OpenAI想好了。

未来，品牌大使也不一定是「真人」，AI完全可以胜任。

从客户服务，到广告、游戏等各行各业，数字人带来的可能将是无限的。

请到「今天看啥」查看全文

推荐文章

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安全播出保障工作

2 天前

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安全播出保障工作

2 天前

财联社AI daily · 李飞飞团队“50美元”复现DeepSeek R1真相：基座为阿里云Qwen模型

2 天前

昌吉日报 · 原来昌吉人都在这里“过年”……

3 天前

双碳情报 · 美国能源部发布《储能战略和路线图》草案

3 天前

壹股经 · 2025.2.5智能监控预警信号，开门红！分钟监控+自动交易+圈神分时+大单联动

3 天前

壹股经 · 2025.2.5智能监控预警信号，开门红！分钟监控+自动交易+圈神分时+大单联动

3 天前

爱范儿 · 是买 Surface Studio，还是买 MacBook Pro？ | 一周范评

8 年前

北京晨报 · 【涨姿势】看完这篇感觉自己不识字的举手

7 年前

商业周刊中文版 · 美国总统女儿的奢侈品“变身白菜”，伊万卡的生意经因何转变？

7 年前

晚清陈卿美 · 清政府VS英国政府，如何保护本国百姓？

7 年前

声乐助手 · 嗓音保健｜一款最适合嗓音工作者日常饮用的润喉茶

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!