【新智元导读】
刚刚,老黄又高调向全世界秀了一把:已经量产的Blackwell,8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350;英伟达惊人的产品迭代,直接原地冲破摩尔定律;Blackwell的后三代路线图,也一口气被放出。
就在刚刚,
老黄手持Blackwell向
全世界展示的那一刻,全场的观众沸腾了。
它,是迄今为止世界最大的芯片!
眼前的这块产品,凝聚着数量惊人的技术
如果用老黄的话说,它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」
8年内,1.8万亿参数GPT-4的训练能耗,直接疯狂降到1/350;而推理能耗则直接降到1/45000
英伟达产品的迭代速度,已经彻底无视摩尔定律。
就如网友所言,无所谓,老黄有自己的摩尔定律。
一手硬件,一手CUDA,老黄胸有成竹地穿过「计算通货膨胀」,放出豪言预测道——在不久的将来,每一个处理密集型应用都将被加速,每一个数据中心也肯定会被加速。
同时公开的Blackwell后三代路线图:Blackwell Ultra(2025年),Rubin(2026年),Rubin Ultra(2027年)
「买得越多,省得越多」的黄式数学公式,也再次亮相。
演讲开篇,老黄最先放出了一个Omniverse模拟世界中的演示。
他表示,「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。
这一切都是物理世界中的模拟,它的实现,得益于两项基本的技术——加速计算和人工智能,将重塑计算机产业。
到目前为止,计算机行业已有60多年的历史,而现在,一个全新的计算时代已然开始。
1964年,IBM的System 360首次引入了CPU,通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等,所有我们今天所了解的技术,都是从这个时间点而来。
直到1995年,PC革命开启让计算走进千家万户,更加民主化。2007年,iPhone推出直接把「电脑」装进了口袋,并实现了云端链接。
可以看出,过去60年里,我们见证了2-3个推动计算行业转变的重要技术节点。
加速计算:一手GPU,一手CUDA
而如今,我们将再一次见证历史。老黄表示,「有两个最基础的事情正发生」。
首先是处理器,性能扩展已经大大放缓,而我们所需的计算量、需要处理的数据都在呈指数级增长。
过去的20年里,英伟达一直在研究加速计算。比如,CUDA的出现加速了CPU负载。事实上,专用的GPU效果会更好。
当我们运行一个应用程序,不希望是一个运行100秒,甚至是100个小时的APP。
因此,英伟达首创了异构计算,让CPU和GPU并行运行,将过去的100个时间单位,加速到仅需要1个时间单位。
可见,它已经实现了100倍速率提升,而功耗仅增加的3倍,成本仅为原来的1.5倍。
英伟达同时为价值十亿美元的数据中心,配备了5亿美元的GPU,让其变成了「AI工厂」。
有了加速计算,世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」,买得越多,省得越多。
除了GPU,英伟达还做了业界难以企及的事,那就是重写软件,以加速硬件的运行。
如下图所示,从深度学习cuDNN、物理Modulus、通信Aerial RAN、基因序列Parabricks,到QC模拟cuQUANTUM、数据处理cuDF等领域,都有专用的CUDA软件。
也就是说,没有CUDA,就等同于计算机图形处理没有OpenGL,数据处理没有SQL。
而现在,采用CUDA的生态遍布世界各地。就在上周,谷歌宣布将cuDF加入谷歌云中,并加速世界上受欢迎的数据科学库Pandas。
而现在,只需要点击一下,就可以在CoLab中使用Pandas。就看这数据处理速度,简直快到令人难以置信。
老黄表示,要推行一个全新的平台是「蛋和鸡」的困境,开发者和用户,缺一不可。
但是经过20年的发展,CUDA已经打破了这个困境,通过全球500万开发者和无数领域的用户实现了良性循环。
有越多人安装CUDA,运行的计算量越大,他们就越能据此改进性能,迭代出更高效、更节能的CUDA。
2012年,神经网络AlexNet的诞生,将英伟达第一次与AI联系起来。我们都知道,AI教父Hinton和高徒当时在2个英伟达GPU上完成AlexNet的训练。
深度学习就此开启,并以超乎想像的速度,扩展几十年前发明的算法。
但由于,神经网络架构不断scaling,对数据、计算量「胃口」愈加庞大,这就不得不需要英伟达重新发明一切。
2012年之后,英伟达改变了Tensor Core,并发明了NvLink,还有TensorRT、Triton推理服务器等等,以及DGX超算。
当时,英伟达的做法没有人理解,更没人愿意为之买单。
由此,2016年,老黄亲自将英伟达首个DGX超算送给了位于旧金山的一家「小公司」OpenAI。
从那之后,英伟达在不断扩展,从一台超算、到一个超大型数据中心。
直到,2017年Transformer架构诞生,需要更大的数据训练LLM,以识别和学习一段时间内连续发生的模式。
之后,英伟达建造了更大的超算。2022年11月,在英伟达数万个GPU上完成训练的ChatGPT横空出世,能够像人类一样交互。
这是世界第一次看到了生成式AI。它会一次输出一个token,可以是图像、语音、文字、视频,甚至是天气token,全部都是关于生成。
老黄表示,「我们可以学习的一切,现在都可以生成。我们现在已经进入了一个全新的生成式AI时代」。
当初,那个作为超算出现的计算机,已经变成了数据中心。它可以输出token,摇身一变成为了「AI工厂」。
而这个「AI工厂」,正在创造和生产巨大价值的东西。
19世纪90年代末,尼古拉·特斯拉发明了AC Generator,而现在,英伟达正创造可以输出token的AI Generator。
英伟达给世界带来的是,加速计算正引领新一轮产业革命。
人类首次实现了,仅靠3万亿美元的IT产业,创造出能够直接服务于100万亿美元产业的一切东西。
传统的软件工厂,到如今AI工厂的转变,实现了CPU到GPU,检索到生成,指令到大模型,工具到技能的升级。
从Blackwell GPU到超级「AI工厂」
接下来就让我们看看,英伟达是如何将一颗颗地表最强的Blackwell芯片,变成一座座超级「AI工厂」的。
注意看,下面这块是搭载了Blackwell GPU的量产级主板。
而在这里,我们可以清晰地看到,两个连在一起的Blackwell芯片。
在8年里,每一代英伟达芯片的Flops,都增长了1000倍。
即使和摩尔定律最好的时刻相比,Blackwell算力的提升也是惊人的。
比如,训练一个1.8万亿参数、8万亿token的GPT-4所用的能耗,直接降至1/350!
Pascal需要消耗的,是1000吉瓦时,这就意味着,它需要一个1000吉瓦的数据中心。
(1吉
瓦=1000兆瓦)
而且如果这样的数据中心真的存在的话,训练也GPT-4也需要整整一个月的时间。
这也就是为什么,ChatGPT这样的LLM, 在八年前是根本不可能存在的。
如今有了Blackwell,过去的1000吉瓦时直接可以降到3吉瓦时。
可以说,Blackwell就是为了推理,为了生成token而生的。它直接将每token的能量降低了45000倍。
在以前,用Pascal产生1个token的消耗,相当于两个200瓦的灯泡运行2天。让GPT-4生成一个单词,大概需要3个token。这根本不可能让我们得到如今和GPT-4聊天的体验。
而现在,我们每个token可以只使用0.4焦耳,用很少的能量,就能产生惊人的token。
当我们从DGX扩展到大型AI超算,Transformer可以在大规模数据集上训练。
而下一代AI,则需要理解物理世界。然而如今大多数AI并不理解物理规律。其中一种解决办法,是让AI学习视频资料,另一种,则是合成数据。
第三种,则是让计算机互相学习!本质上就和AlphaGo的原理一样。
巨量的计算需求涌来,如何解决?目前的办法就是——我们需要更大的GPU。
英伟达将两块目前能造出来的最大尺寸的芯片,用一条10TB/s的链路链接起来;然后再把它们放到同一个计算节点上,和一块Grace CPU相连。
在训练时,它被用于快速检查点;而在推理和生成的场景,它可以用于储存上下文内存。
而且,这种第二代GPU还有高度的安全性,我们在使用时完全可以要求服务器保护AI不受偷窃或篡改。
并且,Blackwell中采用的是第5代NVLink。
通过该系统,我们可以测试每一个晶体管、触发器、片上内存和片外内存,因此我们可以当场确定某个芯片是否出现故障。
基于此,英伟达将拥有十万个GPU超算的故障间隔时间,缩短到了以分钟为单位。
因此,如果我们不发明技术来提高超算的可靠性,那么它就不可能长期运行,也不可能训练出可以运行数月的模型。
如果提高可靠性,就会提高模型正常的运行时间,而后者显然会直接影响成本。
最后,老黄表示,解压缩引擎的数据处理,也是英伟达必须做的最重要的事之一。
通过增加数据压缩引擎、解压缩引擎,就能以20倍的速度从存储中提取数据,比现在的速度要快得多。
超强风冷DGX & 全新液冷MGX
Blackwell是一个重大的跃进,但对老黄来说,这还不够大。
英伟达不仅要做芯片,还要制造搭载最先进芯片的服务器。拥有Blackwell的DGX超算,在各方面都实现了能力跃升。
集成了Blackwell芯片的最新DGX,能耗仅比上一代Hopper提升了10倍,但FLOPS量级却提升了45倍。
下面这个风冷的DGX Blackwell,里面有8个GPU。
而对应散热器的尺寸也很惊人,达到了15kW,并且是完全的风冷。
如果你喜欢部署液冷系统呢?英伟达也有新型号MGX。
单个MGX同时集成72个Blackwell GPU,且有最新的第五代NVLink每秒130TB的传输速度。
NVLink将这些单独的GPU彼此连接起来,因此我们就得到了72个GPU的MGX
介绍完芯片,老黄特意提到了英伟达研发的NVLink技术,这也是英伟达的主板可以越做越大的重要原因。
由于LLM参数越来越多、越来越消耗内存,想要把模型塞进单个GPU已经几乎是不可能的事情,必需搭建集群。其中,GPU通信技术的重要性不亚于计算能力。
英伟达的NVLink,是世界上最先进的GPU互连技术,数据传输速率可以堪称疯狂!
因为如今的DGX拥有72个GPU,而上一代只有8个,让GPU数直接增加了9倍。而带宽量,则直接增加了18倍,AI FLops增加了45倍,但功率仅仅增加了10倍,也即100千瓦。
人们之所以意识到它的重要性,是因为它将所有这些不同的GPU连接在一起,从而能够让十万亿参数的LLM运行起来。
500亿个晶体管,74个端口,每个端口400GB,7.2TB每秒的横截面带宽,这本身就是个奇迹。
而更重要的是,NVLink内部还具有数学功能,可以实现归约。对于芯片上的深度学习,这尤其重要。
有趣的是,NVLink技术,大大拓宽了我们对于GPU的想象。
支撑着72个GPU的骨架,就是NVLink的5000根电缆,能够在传输方面节省20kw的功耗用于芯片计算。
老黄拿在手里的,是一个NVLink的主干,用老黄的原话说,它是一个「电气机械奇迹」
NVLink做到的仅仅是将不同GPU芯片连接在一起,于是老黄又说了一句「这还不够宏大」。
要连接超算中心内不同的主机,最先进的技术是「无限带宽」(InfiniBand)。
但很多数据中心的基础设施和生态,都是基于曾经使用的以太网构建的,推倒重来的成本过高。
因此,为了帮助更多的数据中心顺利迈进AI时代,英伟达研发了一系列与AI超算适配的以太交换机。
网络级RDMA、阻塞控制、适应性路由、噪声隔离,英伟达利用自己在这四项技术上的顶尖地位,将以太网改造成了适合GPU之间点对点通信的网络。
由此也意味着,数百万GPU数据中心的时代,即将到来。
在英伟达的AI工厂中,运行着可以加速计算推理的新型软件——NIM。
这个容器里有大量的软件,其中包括用于推理服务的Triton推理服务器、优化的AI模型、云原生堆栈等等。
现场,老黄再一次展示了全能AI模型——可以实现全模态互通。有了NIM,这一切都不是问题。
它可以提供一种简单、标准化的方式,将生成式AI添加到应用程序中,大大提高开发者的生产力。
现在,全球2800万开发者都可以下载NIM到自己的数据中心,托管使用。
未来,不再耗费数周的时间,开发者们可以在几分钟内,轻松构建生成式AI应用程序。
与此同时,NIM还支持Meta Llama 3-8B,可以在加速基础设施上生成多达3倍的token。
这样一来,企业可以使用相同的计算资源,生成更多的响应。
而基于NIM打造的各类应用,也将迸发涌现,包括数字人、智能体、数字孪生等等。
老黄表示,「NVIDIA NIM集成到各个平台中,开发人员可以随处访问,随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。
智能体组队,万亿美元市场
老黄称,几乎每个行业都需要客服智能体,有着万亿美元的市场前景。
可以看到,在NIM容器之上,大多数智能体负责推理,去弄清任务并将其分解成多个子任务。还有一些,它们负责检索信息、搜索,甚至是使用工具等。
未来,每家公司都将有大量的NIM智能体,通过连接起来组成一个团队,完成不可能的任务。
GPT-4o躯壳,老黄做出来了
在人机交互这方面,老黄和Sam Altman可以说是想到一起了。
他表示,虽然可以使用文字或语音形式的prompt给AI下达指令,但很多应用中,我们还是需要更自然的、更类人的交互方式。
这指向了老黄的一个愿景——数字人。相比现在的LLM,它们可以更吸引人,更有同理心。
GPT-4o虽是实现了无法比拟的类人交互,但缺少的是一个「躯体」。
未来,品牌大使也不一定是「真人」,AI完全可以胜任。
从客户服务,到广告、游戏等各行各业,数字人带来的可能将是无限的。