专栏名称: 芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
目录
相关文章推荐
科幻世界SFW  ·  悼念向际纯:中国科幻绘画的开拓者 ·  2 天前  
科技美学  ·  全球最薄折叠旗舰!OPPO Find ... ·  2 天前  
科技美学  ·  全球最薄折叠旗舰!OPPO Find ... ·  2 天前  
科幻世界SFW  ·  新刊速递 | ... ·  5 天前  
51好读  ›  专栏  ›  芯东西

昨夜,AI芯片新皇登场!黄仁勋连发6枚核弹,还复活了机器人瓦力

芯东西  · 公众号  ·  · 2024-03-19 10:43

正文

黄仁勋甩出最强AI核弹!新架构GPU性能暴涨30倍。
作者 | ZeR0
编辑 | 心缘
芯东西美国圣何塞3月18日现场报道,时隔5年,全球顶尖AI计算技术盛会、年度NVIDIA GTC大会重磅回归线下,就在刚刚,英伟达创始人兼CEO黄仁勋发表长达123分钟的主题演讲,发布AI芯片最新震圈之作—— Blackwell GPU ,智东西受邀参会并从现场发来完整的干货报道。

在这场大会上,英伟达展现出堪称恐怖的行业号召力,将AI圈的顶尖技术大牛和行业精英汇聚在一起。现场盛况空前,线下参会者逾万人。智东西此行遇到许多来自国内的参展商或观众,明显感受到国内企业和开发者对这场AI盛会的热情。

当地时间3月18日13点,北京19日凌晨4点,GTC最重磅的主题演讲正式开始,在播放一段AI主题短片后,黄仁勋穿着标志性的黑色皮衣从圣何塞SAP中心场馆主舞台登场,与观众寒暄。

他首先回顾了英伟达30年来追求加速计算旅程的开端,历数研发革命性计算模式CUDA、将首台AI超级计算机DGX交给OpenAI等一系列里程碑事件,然后将话题自然地聚焦到生成式AI上。

在宣布与多家EDA龙头的重要合作伙伴关系后,他谈到快速演进的AI模型带动训练算力需求暴涨,需要更大的GPU,“加速计算已达到临界点,通用计算已失去动力”,“在每一个行业,加速计算都比通用计算有了巨大的提升”。
紧接着,大屏幕上过电影般快速闪现从GPU、超级芯片到超级计算机、集群系统的一系列关键组件,然后黄仁勋重磅宣布: 全新旗舰AI芯片Blackwell GPU,来了!

这是GPGPU领域最新的震圈之作,从配置到性能都将前辈Hopper GPU拍倒在沙滩上。他举起双手展示了Blackwell和Hopper GPU的对比,Blackwell GPU明显大了一圈。
毕竟手心手背都是肉,对比完后,黄仁勋马上开始安慰:“It’s OK, Hopper. You’re very good, good boy, or good girl.”
但也不能怪老黄喜新厌旧,因为Blackwell的性能,实在是太强了!无论是FP8,还是全新的FP6、FP4精度,以及HBM能塞下的模型规模和HBM带宽,都做到“倍杀”前代Hopper。

8年,从Pascal架构到Blackwell架构,英伟达将AI计算性能提升了 1000倍

这还只是开胃小菜,黄仁勋真正的“胃口”,是打造足以优化 万亿参数级GPU计算 的最强AI基础设施。
总体来看, 英伟达在本届GTC大会上连发6个大招:
1、发布Blackwell GPU:训练性能提升至2.5倍,FP4精度推理性能提升至前代FP8的5倍;升级第五代NVLink,互连速度是Hopper的2倍,可扩展到576个GPU,能够解决万亿参数混合专家模型通信瓶颈。
2、Blackwell平台“全家桶”登场:既面向万亿参数级GPU计算优化,推出全新网络交换机X800系列,吞吐量高达800Gb/s;又发布GB200超级芯片、GB200 NVL72系统、DGX B200系统、新一代DGX SuperPOD AI超级计算机。

3、推出数十个企业级生成式AI微服务,提供一种封装和交付软件的新方式,方便企业和开发者用GPU部署各种定制AI模型。
4、宣布台积电、新思科技将突破性的光刻计算平台cuLitho投入生产:cuLitho将计算光刻加速40-60倍,并采用了增强的生成式AI算法,将为2nm及更先进制程开发提供“神助攻”。
5、发布人形机器人基础模型Project GR00T、新款人形机器人计算机Jetson Thor,对Isaac机器人平台进行重大升级,推动具身智能突破。黄仁勋还将一对来自迪士尼研究公司的小型英伟达机器人带上台互动。
6、与苹果强强联手,将Omniverse平台引入苹果Vision Pro,并宣布为工业数字孪生软件工具提供Omniverse Cloud API。
不过或许是被预期到的内容太多,市场情绪并没有被刺激到疯长。截至美股收盘,英伟达最新股价为884.55美元/股,涨幅0.70%,最新市值为22114亿美元。


01 .
AI芯片新皇登场:2080亿颗晶体管,
2.5倍训练性能、5倍推理性能


进入生成式AI新纪元,AI计算需求爆发式增长,而一路演进的英伟达GPU凭借傲视群雄的实战算力,令全球AI行业患上“英伟达GPU饥渴症”,一众AI巨头重金难买黄仁勋点头。

当Hopper GPU还是AI竞赛争抢的重点资源,超越它的继任者——Blackwell GPU正式发布!
每一代英伟达GPU架构都会以一位科学家的名字来命名。新架构取名Blackwell是为了致敬美国科学院首位黑人院士、杰出统计学家兼数学家David Blackwell。Blackwell擅长将复杂的问题简单化,他独立发明的“动态规划”、“更新定理”被广泛多个科学及工程学领域。

▲David Blackwell旧照

黄仁勋说,生成式AI是这个时代的决定性技术,Blackwell是推动这场新工业革命的引擎。
Blackwell GPU有6大核心技术:

1、号称是“世界最强大的芯片”: 集成2080亿颗晶体管,采用定制台积电4NP工艺,承袭“拼装芯片”的思路,采用统一内存架构+双芯配置,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间 NVHyperfuse接口连 一个统一GPU,共有 192GB HBM3e内存 8TB/s显存带宽 ,单卡AI训练算力可达 20PFLOPS

跟上一代Hopper相比,Blackwell因为集成了两个die,面积变大,比Hopper GPU足足多了1280亿个晶体管。对比之下,前代H100只有80GB HBM3内存、3.35TB/s带宽,H200有141GB HBM3e内存、4.8TB/s带宽。
2、第二代Transformer引擎: 将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在 FP4精度 的AI推理能力,可支持 2倍 的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度。

在全新FP4精度下,Blackwell GPU的AI性能达到Hopper的 5倍 。英伟达并未透露其CUDA核心的性能,有关架构的更多细节还有待揭晓。

3、第五代NVLink: 为了加速万亿参数和混合专家模型的性能,新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信,适用于复杂大语言模型。

单颗NVLink Switch芯片有500亿颗晶体管,采用台积电4NP工艺,以1.8TB/s连接4个NVLink。

4、RAS引擎: Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎,还增加了芯片级功能,可利用基于AI的预防性维护来进行诊断和预测可靠性问题,最大限度延长系统的正常运行时间,提高大规模AI部署的弹性,一次可不间断地运行数周甚至数月,并降低运营成本。
5、安全AI: 先进的机密计算功能可保护AI模型和客户数据,而不会影响性能,支持新的本地接口加密协议。
6、解压缩引擎: 支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。
AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI都将采用Blackwell产品。特斯拉和xAI共同的CEO马斯克直言:“目前在AI领域,没有比英伟达硬件更好的。”
值得注意的是,相比以往强调单芯片的性能表现,此次Blackwell系列发布更侧重在整体系统性能,并对GPU代号称谓模糊,大部分都统称为“Blackwell GPU”。
按此前市场传言,B100价格可能大约是3万美元,B200售价约为3.5万美元,这样来算,价格只比前代提升不到50%,训练性能却提高2.5倍,性价比明显更高。
如果定价涨幅不大,Blackwell系列GPU的市场竞争力将强到可怕,性能提升足够凶猛,性价比相较上一代Hopper变更高,这让同行怎么打?

02 .
面向万亿参数级GPU计算优化,
推出全新网络交换机、AI超级计算机


Blackwell平台除了基础的HGX B100外,还包括NVLink Switch、GB200超级芯片计算节点、X800系列网络交换机。

其中, X800系列 是专为大规模AI量身订制的全新网络交换机,以支持新型AI基础设施轻松运行万亿参数级生成式AI业务。
英伟达Quantum-X800 InfiniBand网络和Spectrum-X800以太网络是全球首批端到端吞吐量高达 800Gb/s 的网络平台,交换带宽容量较前代产品提高5倍,网络计算能力通过英伟达第四代SHARP技术提高了9倍,网络计算性能达到14.4TFLOPS。早期用户有微软Azure、甲骨文云基础设施、Coreweave等。

Spectrum-X800平台专为多租户环境打造,可实现每个租户的AI工作负载的性能隔离,为生成式AI云和大型企业级用户带来优化的网络性能。
同时,英伟达提供网络加速通信库、软件开发套件和管理软件等全套软件方案。
英伟达称 GB200 Grace Blackwell超级芯片 是为万亿参数规模生成式AI设计的处理器。 该芯片通过900GB/s第五代NVLink-C2C互连技术将 2个Blackwell GPU 连接到 1个英伟达 Grace CPU 。但英伟达并没有明确Blackwell GPU的具体型号。

黄仁勋拿起GB200超级芯片展示,说这是同类计算机中第一个做到在这么小空间里容纳如此多的计算,因此内存相连,它们“就像个快乐的大家庭,一起开发一个应用程序”。

一个GB200超级芯片计算节点可内置2个GB200超级芯片。一个NVLink交换机节点可支持2个NVLink交换机,总带宽达到14.4TB/s。

一个Blackwell计算节点包含2个Grace CPU和4个Blackwell GPU,AI性能达到80PFLOPS。

有了更强的GPU和网络性能,黄仁勋宣布推出一款全新计算单元——多节点、液冷、机架级系统英伟达 GB200 NVL72

GB200 NVL72像一个“巨型GPU”,能像单卡GPU一样运作,AI训练性能达到 720PFLOPS ,AI推理性能高达 1.44EFLOPS ,拥有30TB快速显存,可处理高达27万亿个参数的大语言模型,是最新DGX SuperPOD的构建模块。

GB200 NVL72可组合36个GB200超级芯片(共有72个B200 GPU和36个Grace CPU),通过第五代NVLink互连,还包括BlueField-3 DPU。

黄仁勋说,目前全球只有几台EFLOPS级的机器,这台机器由60万个零件组成,重达3000磅,是一个“在单个机架上的EFLOPS AI系统”。
据他分享,以前用H100训练GPT-MoE-1.8T大模型需要90天、消耗大约8000个GPU、15MW的电力。而现在用GB200 NVL72只需要2000个GPU、4MW的电力。

在跑万亿参数模型时,GB200经过多维度的优化,单个GPU每秒Tokens吞吐量能多达H200 FP8精度的30倍。

对于大语言模型推理,与相同数量的H100相比, GB200 NVL72 可提供30倍的性能提升,并将成本和能耗降低为前代的1/25。

AWS、谷歌云、微软Azure、甲骨文云基础设施等主流云均支持访问GB200 NVL72
此外,英伟达推出用于AI模型训练、微调和推理的统一AI超级计算平台 DGX B200系统
DGX B200系统是DGX系列的第六代产品,采用风冷传统机架式设计,包括8个B200 GPU、2个第五代英特尔至强处理器,在FP4精度下可提供144PFLOPS的AI性能、1.4TB超大容量GPU显存、64TB/s显存带宽,能使万亿参数模型的实时推理速度快至上一代的 15倍
该系统包含带有8个ConnectX-7网卡和2个BlueField-3 DPU的先进网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand和Spectrum-X以太网网络平台提供更高AI性能。
英伟达还推出了 采用DGX GB200系统的下一代数据中心级AI超级计算机DGX SuperDOD 可满足处理万亿参数模型,确保超大规模生成式AI训练和推理工作负载的持续运行。
新一代DGX SuperPOD由8个或更多DGX GB200系统构建而生,具有全新高效液冷机架级扩展架构,在FP4精度下可提供11.5EFLOPS的AI算力和240TB快速显存,并能通过机架来扩展性能。
每个DGX GB200系统有 36个GB200超级芯片 。与H100相比,GB200超级芯片在跑大语言模型推理的性能可提升高达45倍。
黄仁勋说,未来数据中心将被认为是AI工厂,整个行业都在为Blackwell做准备。


03 .
推出数十个企业级生成式AI微服务,
方便企业定制和部署Copilots


硬件是杀手锏,软件则是护城河。
今天,英伟达继续扩大凭借CUDA和生成式AI生态积累的优势,推出 数十个企业级生成式AI微服务 ,以便开发者在英伟达CUDA GPU安装基础上创建和部署生成式AI Copilots。

黄仁勋说,生成式AI改变了应用程序编程方式,企业不再编写软件,而是组装AI模型,指定任务,给出工作产品示例,审查计划和中间结果。
英伟达NIM是英伟达推理微服务的参考,是由英伟达的加速计算库和生成式AI模型构建的。 微服务支持行业标准的API,在英伟达大型CUDA安装基础上工作,并针对新的GPU进行优化。

企业可使用这些微服务在自己的平台上创建和部署自定义应用程序,同时保留对其知识产权的完全所有权和控制权。NIM微服务提供由英伟达推理软件支持的预构建生产AI容器,使开发人员能够将 部署时间从几周缩短到几分钟
NIM微服务可用于部署来自 英伟达、AI21、Adept、Cohere、Getty Images、Shutterstock 的模型,以及来自 谷歌、 Hugging Face、Meta、微软、Mistral AI、Stability AI 的开放模型。

用户将能够访问来自亚马逊SageMaker、谷歌Kubernetes引擎和微软Azure AI的NIM微服务,并与Deepset、LangChain和LlamaIndex等流行AI框架集成。
为加速AI应用,企业可使用CUDA-X微服务,包括定制语音和翻译AI的英伟达Riva、用于路径优化的英伟达cuOpt、用于高分辨率气候和天气模拟的英伟达Earth-2等。一系列用于定制模型开发的英伟达NeMo微服务即将推出。

开发者可在ai.nvidia.com免费试用英伟达微服务。企业可使用英伟达AI Enterprise 5.0部署生产级NIM微服务。

04 .
推生成式AI算法, 联手两大芯片界顶流,
英伟达要掀起光刻计算新革命!


在去年的GTC大会上,英伟达面向芯片制造行业甩出一项秘密研发4年的大招:通过突破性的光刻计算库cuLitho,将计算光刻加速40-60倍,加速突破生产2nm及更先进芯片的物理极限。( 黄仁勋向台积电放核弹!干掉40000台CPU服务器,计算光刻提速40倍
这个项目的合作者,都是芯片产业链最鼎盛的存在——全球最大AI芯片巨头英伟达、全球最大晶圆代工商台积电、全球最大EDA巨头新思科技。

计算光刻技术是芯片制造的基石。今天,在cuLitho加速流程的基础上 ,通过 生成式AI算法将工作流的速度又提升了2倍
具体来说,晶圆厂工艺的许多变化需修正OPC(光学邻近校正),会增加计算量,造成开发瓶颈。cuLitho提供的加速计算和生成式AI则能缓解这些问题。应用生成式AI可创建近乎完美的反掩模或向解决方案来解决光衍射问题,然后再通过传统的物理严格方法推导出最终的光掩模,从而将整个OPC过程加快2倍。
在芯片制造过程中,计算光刻是计算最密集的工作负载,每年在CPU上消耗数百亿小时。相比基于CPU的方法,基于GPU加速计算光刻的库cuLitho能够大大改进了芯片制造工艺。
通过加速计算, 350个 英伟达H100系统可取代 40000个 CPU系统,大幅提高了吞吐量,加快生产,降低成本、空间和功耗。
“我们正在将英伟达cuLitho在台积电投入生产。”台积电总裁魏哲家说,双方合作将GPU加速计算整合到台积电的工作流程中,实现了性能的巨大飞跃。在共享工作流程上测试cuLitho时,两家公司共同实现了曲线流程45倍的加速以及传统曼哈顿流程近60倍的改进。

05 .
全新人形机器人基础模型、计算机来了!
Isaac机器人平台重大更新


除了生成式AI,英伟达还相当看好具身智能,并发布了人形机器人通用基础模型 Project GR00T 、基于Thor SoC的新型人形机器人计算机 Jetson Thor
黄仁勋说:“开发通用人形机器人基础模型是当今AI领域中最令人兴奋的课题之一。”
GR00T驱动的机器人能理解自然语言,并通过观察人类行为来模仿快速学习协调、灵活性和其它技能,以适应现实世界并与之互动。黄仁勋展示了多台这样的机器人是如何完成各种任务的。

Jetson Thor具有针对性能、功耗和尺寸优化的模块化架构。该SoC包括一个带有Transformer引擎的下一代Blackwell GPU,以运行GR00T等多模态生成式AI模型。
英伟达正为领先的人形机器人公司开发一个综合的AI平台,如1X、Agility Robotics、Apptronik、波士顿动力、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等。






请到「今天看啥」查看全文