专栏名称: 招商电子
招商证券电子行业研究,关注最新科技趋势与大陆电子产业链,提供A股电子上市公司专业投资观点。
目录
相关文章推荐
冠南固收视野  ·  转债市场日度跟踪20250319 ·  21 小时前  
上海证券报  ·  一批公司拟大额分红 ·  21 小时前  
中国证券报  ·  凌晨爆发!大涨超97% ·  2 天前  
51好读  ›  专栏  ›  招商电子

【招商电子】英伟达GTC 2025跟踪报告:2028年全球万亿美金Capex可期,关注CPO、正交背板等新技术趋势

招商电子  · 公众号  · 证券  · 2025-03-20 10:51

正文


点击招商研究小程序查看PDF报告原文


事件:


英伟达GTC 2025大会于3月17-21日举办,英伟达CEO黄仁勋于3月19日发表主题演讲,介绍AI加速计算新时代、AI加速计算的新品、CPO芯片及集成光子引擎、以及AI技术在自动驾驶、机器人等前沿领域的应用。综合演讲及材料信息,总结要点如下:


评论:


1、数据中心28年Capex望超万亿美元,训练推理带来100倍Tokens增长。


1)资本开支: 数据中心、CSP和相关基础设施的资本开支将大幅增加,预计2028年数据中心建设将达到1万亿美元,绝大部分投资或将用于加速计算芯片。2024年公司向四大云服务商共交付130万颗Hopper GPU,预计2025年将出货360万颗Blackwell。英伟达认为,世界正在经历一场革命性转型,全球数据中心正在向人工智能工厂转型,计算机将为软件生成Tokens,处理分析并生成AI驱动的研究和应用。 2)训练及推理: 英伟达概述了三层次的AI,即Generative AI、Agentic AI以及Physical Al,从生成式到AI推理再到理解物理层面;由于训练和推理模型的计算量剧增,AI基础设施在短时间内增长惊人,如今所需计算量较去年预计增长100倍,当AI技术生成Tokens 时,会生成代表推理步骤的单词序列,致使Tokens数量大幅增加,为保持模型响应交互性,需将计算速度及Tokens速度提高10倍。


2、Blackwell全面投产且进展顺利,展示Rubin和Feynman等未来代际产品。


1)Blackwell: 英伟达表示,Blackwell已全面投产且进展较快,客户需求量较大,Blackwell NVL72结合Dynamo推理性能提升了40倍,相当于一座Hopper AI工厂的性能;英伟达将于25H2发布Blackwell Ultra,算力较GB200 NVL72提升约50%(FP8精度算力达0.36EF),搭载HBM3E、内存从192GB提升到了288GB,搭载CX8链路并达到14.4TB/s的传输速率。 2)Vera Rubin NVL144: 预计26H2推出,包括VeraCPU+ RubinGPU,同时调用时Rubin能在推理时实现每秒50千万亿次浮点运算,Rubin内存将升级为288GB容量的HBM4,带宽也会从原来的8TB/s大幅提升至13TB/s,扩展NVLink后Rubin带宽翻倍至260TB/s,同时采用CX9链路并达到28.8TB/s传输速率; 3)Rubin Ultra NVL576: 预计27H2推出,FP4精度算力达15 EF、FP8精度算力达5 EF,相较于GB300 NVL72性能提升约14倍;Rubin Ultra NVL576搭载HBM4e内存、带宽达到4.6 PB/s ,并支持 1.5PB/S带宽的NVLink 7,与上一代相比提升约12倍,同时采用CX9链路及115.2 TB/s传输速率,较上一代提升约8倍。 4)Feynman: 预计2028年上市,Vera CPU、NVSwitch-NEXT、Spectrum7、CX10网卡等配套都将同步迭代,迎接千兆瓦AI工厂时代。


3、英伟达推出CPO交换机,预计2026年开始将随Rubin系列逐步推向市场。


1)Quantum-X CPO交换机: 预计25H2推出,整体交换容量为115.2Tb/s,相比可插拔光模块方案能耗降低约3.5倍,并带来网络弹性提升10倍以及部署效率提升1.3倍;每个Quantum-X CPO交换机包含4个Switch模块,单Switch具备28.8Tb/s传输速率,采用台积电N4代工,具备3.6TFLOPS FP8精度的算力;Switch周围放置6个光学组件,组件内含3个1.6T可拆卸硅光引擎(共计18个),由324路光纤连接,其中包括36路光纤输入及288路光纤输出。硅光引擎采用200Gb/sDe微环调制器,光纤耦合采用台积电COUPE平台、N6工艺生产,用垂直耦合方式,与3D封装的EPIC进行光路耦合。交换机外部共有1152路单模光纤,即8×2(收发)×3(光引擎数)×6(光组件数)×4(芯片数),单个模块包括8个激光器用于自动温度跟踪、波长和功率调谐,整个Quantum-X交换机对外接口包括18个外置光源输入,144个MPO连接器、324根光连接,对应115太比特每秒的吞吐量。 2)Spectrum-X CPO: 预计26H2推出,分为两种型号,①SN6810包含128*800GB/S端口,背板带宽102.4TB/S,②SN6800包含512*800Gb/S端口,背板带宽409.6TB/S; 3)MRM micro mirror技术 :结构为1个小波导连接1个环形结构,当光信号在波导中传输时,环形结构能产生共振、控制波导反射率、通过吸收光阻断光信号,将直接连续激光束转化为0或1;由于英伟达选择这项技术,25H2硅光子交换机将顺利推出,未来英伟达将硅光子学与共封装技术相结合,无需收发器,可直接将光纤接入512接口的交换机中,扩展到数十万个甚至数百万个GPU规模的能力,采用CPO交换机可以帮助数据中心节省60MW的电力,相当于100个Rubin的耗电量。 4)合作伙伴: 波若威科技、Coherent、康宁、Fabrinet、富士康、Lumentum、SENKO、矽品SPIL、住友电工、天孚光通信TFC、台积电等。


4、智驾推出Halos系统,机器人领域推出开源通用基础模型Isaac Groot N1。


①自动驾驶: 英伟达认为自动驾驶时代已经来临,英伟达在汽车安全领域发布了Halos系统,通过Omniverse加速自动驾驶汽车开发,Cosmos的预测和推理能力支持AI优先的自动驾驶系统,该系统通过模型蒸馏、闭环训练和合成数据生成实现端到端可训练。 ②机器人: 英伟达认为训练机器人需海量数据,借助基于英伟达Omniverse和Cosmos构建的方案可生成合成数据,英伟达推出并开源适用于类人机器人的通用基础模型Isaac Groot N1,具有快慢双系统架构,通用性强,开发者可利用相关流程对其进行后期训练。


投资建议: 我们认为英伟达此次主题演讲技术展示市场前期已有较多预期,从Rubin平台开始的CPO、PTFE正交背板等新技术变化值得长线跟踪,未来需要持续关注单rack架构内布局结构对PCB等产品的迭代推动进度,短期预期柜内仍将会使用较多铜连接方案,单卡和单柜功率提升对于电源和液冷等要求持续提高,建议重点关注以下长线有边际变化的细分领域和对应公司:******。


风险提示:竞争加剧风险、贸易摩擦风险、行业景气度变化风险、宏观经济及政策风险。


附录:英伟达GTC 2025主题演讲纪要


时间: 2025年3月19日

主讲人: 英伟达创始人黄仁勋


1、AI的三个层次


过去五年,重点转向生成式人工智能,实现图像、资产的翻译与转换,人工智能检索方法也大变。 以往侧重存储、获取多版本数据,如今AI像主动助手,能理解请求上下文与含义,动态生成响应,这一转变近年对技术各层面影响重大。现在是生成计算模型,不像过去提前创建、存储多版本内容再取用,AI能理解我们提问并生成所知,必要时检索信息、加深理解并给出答案,不再是检索数据,而是生成答案,彻底改变计算方式,过去几年尤其是两三年内,计算的每一层都发生了变化。 ①生成式AI 是教AI模式转换,如文本到图像、视频等,能多种方式生成内容,从根本上改变计算模式。 ②智能体AI 意味着有AI代理机构,它能感知、理解环境背景,可推理如何回答或解决问题,能规划行动、使用工具,因理解多模态信息,可访问网站学习并利用新学知识工作,这是全新推理方式。 ③物理AI 依托理解物理世界的物理人工智能驱动机器人技术,它懂摩擦、惯性、因果关系、物体永存性等,理解三维空间将开启人工智能新时代,让机器人成为可能,这些阶段都将带来新市场机会。


人工智能解决行业挑战的能力不断提升。 今年重点聚焦两大核心问题:一是突破数据限制,数据作为AI的核心,打破其约束至关重要;二是优化训练流程,以此推动AI进一步发展。扩展AI意义重大,智能的扩展策略能提升AI系统的效率与弹性。过去一年,AI发展显著,模型性能达到全新高度。扩展AI并非仅提升计算容量,还涉及弹性、加速及推理。现代AI系统采用结构化决策,系统会选出最佳解决方案,不再是简单的“单次生成”,而是遵循结构化推理过程,保证响应的一致性与准确性。



2、推理模型带来的100倍Tokens增长


由于推理,如今所需计算量很可能是去年此时预计的100倍。 从AI的能力说起,智能体AI具备推理能力,能逐步解决问题,比如用不同方式处理问题选最佳答案,或多种方式解决同一问题并检查一致性,还能将答案回代方程确认。现在AI借助思维链技术可逐步推理分解问题。


在AI基础技术中,生成下一个标记(Tokens)时,前一步生成结果会再次作为输入参与后续步骤,不是只生成单个标记,而是生成代表推理步骤的单词序列,导致生成的Tokens数量大增,可能达到原来的100倍,或因模型复杂达到10倍。为保证模型响应性和交互性,计算速度需提升10倍,计算量要容易100倍。但面临数据来源和局限性的挑战,数据及人类演示有限,系统需按步骤读取、批准数据来解决复杂问题,如何突破这一制约是关键。在科学领域,类似数独的谜题和基于限制的问题可作类比,AI能通过大量尝试逐步解决,生成数百万独特示例,基于产生的大量Tokens形成海量合成数据用于学习优化。


对比前四大公共云CSP(AWS、Azure、GCP和OCI)中Hopper GPU高峰年和Blackwell第一年,AI正处拐点,因更聪明、能推理而更有用,使用人数增多,如ChatGPT等待时间变长。训练和推理模型所需计算量急剧增长,短短一年,Blackwell刚发货,AI基础设施就呈现惊人增长。




3、数据中心的演变与人工智能加速计算的新时代


如今,我们似乎常常不得不等待技术的追赶。 许多人渴望看到结果,但训练这些模型所需的计算能力是巨大的。随着最新硬件的进步,我们终于看到计算能力在实际应用中得到了体现。预测的紫色部分显示了数据中心投资的预计增长。分析师预测,用于数据中心、CSP 和相关基础设施的资本分配将大幅增加。正如我之前提到的,我预计在不久的将来,数据中心的建设将大幅扩张。这种动态转变已经开始,绝大部分投资可能会用于加速计算。我们早就明白,软件必须与硬件加速器紧密集成,而现在我们已经越过了一个临界点,这种集成正在成为一种必然。



我们现在正在见证全球数据中心扩张所带来的切实影响。 第一个关键转变是基础设施的转变。第二个重大发展是软件开发所需的资本投资不断增加。 这是一个重要的概念:软件加速器现在将产生代币,驱动软件流程。从本质上讲,整个计算生态系统正在变得代币化,从而实现先进的人工智能驱动的检索和处理。


数据中心正在转变为我所说的 “人工智能工厂”。 这些设施只有一个目的:处理、分析和生成人工智能驱动的研究和应用。世界正在经历一场根本性的转变--不仅是数据中心的扩张,还有如何在这些环境中部署和加速人工智能。


4、CUDA-X行业框架


我们需要AI框架来创建加速软件,就像加速AI框架一样,这需要物理、生物学、多物理学以及各类量子物理学的框架,还有各种各样的库和框架,我们称之为各科学领域的库加速框架。


CUPYNUMERIC: NumPy是全球下载量和使用量最大的Python库,去年下载达4亿次。若你在使用NumPy,不妨试试CUPYNUMERIC。


CULITHO: 计算光刻库,历经四年,已涵盖光刻和计算光刻全过程。未来各行业有工厂的公司都将有两类工厂,一是实体建造工厂,一是制造AI的数学工厂。台积电、三星、阿斯麦都是我们的合作伙伴及导师,提供了支持。


AERIAL SIONNA: 我们的5G库,可将GPU变为5G无线电,信号处理是我们的强项。在此基础上,能分层AI for Ran,下一代无线电网络将深度融入AI。


CUOPT: 受信息理论局限,信息有限,但加入AI就能进行数学优化。几乎各行业在座位规划、航班库存管理以及客户、工人、工厂、司机和乘客等安排时都会用到,涉及多种限制和大量变量,旨在优化时间、利润和服务质量。


PARABRICKS: 用于基因测序和分析的模块。


MONAI: 全球领先的医学影像库。


EARTH-2: 用于高分辨率本地天气分析。


CUQUANTUM & CUDA-Q: 我们将在GTC举办首个量子日活动。正与生态系统中各方合作,助力研究量子架构、算法,或构建经典加速量子异构架构,在张量收缩的等方差和张量、量子化学等方面开展了令人兴奋的工作。



5、AI在行业中的应用


GPU云


AI始于云端,云服务提供商热衷于我们的领先技术,他们主要业务是托管GPU,称自己为GPU云。我们的重要合作伙伴CoreWeave正在筹备上市,我们深感自豪。


边缘计算与6G


边缘计算是令人激动的领域。英伟达携手T-Mobile、MITRE、思科、ODC和Booz Allen Hamilton,将在美国构建完整的无线电网络堆栈,把AI引入边缘计算。全球每年有1000亿美元资本投入未来无线电网络及所有数据中心通信配置,这将是融入AI的加速计算。AI借助强化学习,能更好地适配无线电信号(如大量mimos)以应对环境和流量变化,革新通信。


自动驾驶汽车


自动驾驶汽车是AI较早涉足的行业。我们开发的技术被几乎所有自主研发汽车的公司采用,相关技术可应用于数据中心(如特斯拉在数据中心用大量视频GPU),或同时用于数据中心与汽车(像Waymo和Wave),也有仅用于汽车的情况(较少见),有些公司还会使用我们所有软件。汽车行业期望与我们合作,我们打造了训练、模拟、自动驾驶汽车这三类计算机及相应软件堆栈、模型和算法。通用汽车(GM)已选择英伟达合作打造未来自动驾驶汽车车队。自动驾驶时代来临,我们期待在制造、设计模拟及车载AI这三个领域与GM开展合作。


计算光刻技术


过去四年,计算光刻技术取得显著进步,大幅提升处理效率,优化了在半导体制造中极为关键的光刻处理流水线。半导体行业由生产硅晶片和光刻元件这两类主要工厂驱动,这些工厂对AI计算、智能设备和自动驾驶汽车等行业意义重大 。台积电(TSMC)、三星(Samsung)、ASML、Synopsys 和 Mentor Graphics 等公司目前正处于光刻技术进步的临界点。


从光刻到AI驱动的射频设计,半导体制造各流程正经历重大创新,然而有限的数据带宽和频谱可用性带来限制,几乎所有行业(从电信到航空航天)都受影响,优化时间、资源分配和整体效率成为关键。


行业正在大规模采用开源解决方案,像BMC这样的大企业推动着基因测序、医学成像和多物理场仿真等领域的创新,研究生态系统发展迅速,经典计算和加速计算有新突破。等变性作为现代AI核心概念,成为先进计算模型关键特征,业界正开发集成软件堆栈,实现AI生态系统各部分无缝互动,基于DSS的计算机辅助工程稀疏求解器和高性能计算框架是两大重要突破,代表着各行业在仿真、设计和AI加速方面的重大转变。


过去许多公司依赖无AI加速优化的传统软件,如今专业AI软件和加速框架兴起,带来计算工作负载处理方式的革命,实现了AI加速大规模数据结构、基于Spark的计算框架以及科学研究尖端解决方案,AI和物理建模的混合加速将持续重塑各行业。相关库速度快、扩展性强且应用广泛,开发人员利用它们能创建出色软件。


加速计算使不可能变为可能,GTC旨在构建深度生态系统,CUDA就是愿景例证。自2006年创立,CUDA已有600万开发者,900多个加速库推动科学发现、塑造行业,让机器能精准感知世界,性能提升数千倍,缩小模拟与现实差距,未来社区还将有更多成就,其影响力深远,如帮助科学家完成毕生研究。


基于此,云计算成为下一个话题。机器学习需强大基础设施,数据中心推动AI研究和科学进步,云服务提供商作用关键,且AI不局限于云正拓展到各领域,云计算在AI推动下正带来开创性发展。



6、人工智能驱动的边缘计算与无线网络革命


这一转变的核心是庞大的软件生态系统,堆栈各层功能类似SQL,为不同应用提供专门库。 AI基础设施复杂,CSP却深知其价值,英伟达与开发者、CSP客户紧密合作,优化AI基础设施以适配实际应用。开发者生态系统是AI融入全球各行业的基础,毕竟各行业系统配置、运行环境、领域库及使用案例差异巨大,如今AI已在企业、制造、机器人和自动驾驶等领域产生重大影响。


当下,越来越多公司投身基于GPU的云服务。 英伟达发展历程中,约20家公司专注GPU云解决方案托管,重要合作伙伴CoreWeave在该领域举足轻重,我们为其进步深感自豪。这些GPU云提供商需求独特,我们全力支持。边缘计算则是最令人期待的发展方向之一。如今,我们宣布重大合作:思科、英伟达、T-Mobile和Servers ODC将在美国搭建全栈AI驱动的无线网络,这是推出的第二个AI网络堆栈,把AI功能带到边缘。每年,数十亿美元投入无线电网络,其构成全球通信骨干。无疑,未来AI驱动的加速计算将彻底革新该领域,大幅提升效率与性能。


在动态环境管理大规模MIMO系统的无线电信号,本质就是大型AI驱动的无线网络。 强化学习在优化网络条件方面会如在其他复杂系统中一样,发挥关键作用,AI极有可能彻底变革通信。就像我们与熟悉之人交流那般轻松,打电话回家时,妻子因了解前情能无缝衔接对话,靠的是先验知识和语境理解。将AI与这些能力结合,就能改变机器处理通信的方式。如同AI改变视频处理和3D图形,也将重新定义边缘计算,这就是此次公告令人兴奋之处,T-Mobile、思科、英伟达和Servers ODC正在构建将AI融入电信基础设施的全栈解决方案。


7、英伟达自动驾驶汽车领域布局


英伟达投身自动驾驶汽车领域超十年,所开发技术几乎被所有自动驾驶汽车公司采用,像特斯拉会用英伟达GPU产品, 可用于数据中心和汽车。Waymo和Wave在数据中心及汽车上都用英伟达计算机。 此外,公司与汽车行业合作,能满足多样合作需求,打造了训练、模拟以及自动驾驶汽车的机器人控制这三类计算机,还有配套软件栈、模型和算法。英伟达宣布,通用汽车选择其作为打造未来自动驾驶汽车车队的合作伙伴。自动驾驶汽车时代已至,英伟达期待在三个领域与通用汽车人工智能团队合作:制造业AI,助力革新汽车制造方式;企业运营AI,实现工作、汽车设计与模拟等方面变革;汽车内部AI,为通用汽车构建AI基础设施,携手推动其AI技术发展。



8、英伟达 Halos系统保障汽车安全


英伟达指出汽车安全领域中安全性受关注不足,在会上发布了Halos系统。安全性需芯片、系统、系统软件、算法、方法论等多方面技术支撑,涉及确保多样性、监测多样性、保证透明度与可解释性等内容,这些理念要融入系统和软件开发各环节。英伟达自称是全球首家对每一行代码做安全性评估的公司,已评估700万行代码,涵盖芯片、系统软件及算法。其安全性由第三方评估,第三方逐行检查代码,确保设计合理,保障多样性、透明度和可解释性,英伟达为此申请了超1000项专利。



9、英伟达借助Omniverse与Cosmos加速自动驾驶AI开发


英伟达借助Omniverse加速自动驾驶汽车的AI开发,Cosmos的预测和推理能力支持AI优先的自动驾驶系统,该系统借新开发方法、模型蒸馏、闭环训练及合成数据生成,实现端到端可训练,过程如下:


模型蒸馏作为策略,Cosmos驾驶知识从慢但智能的“教师”模型,转移到小、快且能在车内运行的“学生”模型。“教师”展示最优轨迹,“学生”跟随学习,经迭代直至二者表现相近。蒸馏启动策略模型,复杂场景则需闭环训练进一步微调。借助Omniverse神经重建,日志数据转为基于物理模拟驾驶闭环的3D场景,创建场景变体测试模型轨迹生成能力,由Cosmos行为评估器评分,新场景及其评估结果形成大型数据集用于闭环训练,提升自动驾驶汽车应对复杂场景的稳健性。


最后,3D合成数据生成增强自动驾驶汽车对不同环境的适应力。Omniverse依日志数据,融合地图和图像构建4D驾驶环境,生成现实数字孪生体,引导Cosmos分割信息。Cosmos生成准确多样场景扩充训练数据,缩小模拟与现实差距。




10、英伟达数据中心技术变革与系统架构演进


数据中心方面,Blackwell已全面投产,公司实现计算机架构的根本性转变。 三年前展示的Grace Hopper,其Ranger系统约为屏幕宽度一半,是首个使用NVLink 32的系统,当时虽体积大,但解决规模扩展问题的理念正确。分布式计算需大量计算机协同处理大问题,而在横向扩展前,纵向扩展不可或缺,只是纵向扩展难度大,不能像Hadoop那样随意扩展。Hadoop用商用计算机组网进行存储计算,这一理念让超大规模数据中心能利用现成设备解决难题,不过我们要解决的问题太复杂,Hadoop式扩展能耗过高,所以得先纵向扩展。


英伟达上一代系统架构HGX革新了计算和人工智能领域。 一个Blackwell封装含两块GPU,八个这样的封装连到NVLink 8,再与有双CPU的CPU机架通过PCI Express相连,众多此类设备经InfiniBand组成人工智能超级计算机,这是横向扩展前的纵向扩展成果,但我们还想继续纵向扩展。Ranger采用该系统,横向扩展的同时将纵向扩展程度提升四倍,有了NVLink 32,可系统体积过大,于是重新设计NVLink工作方式和纵向扩展方式,首先是在系统主板嵌入交换器,拆分并取出NVLink系统。



NVLink交换机堪称世界上性能最强的交换机。借助它,每一块GPU都能在相同时间内以满带宽与其他GPU进行通信。 我们把它从原来的位置移到了机箱中央。九个不同的交换机托盘里,总共装有18个这样的交换机。从计算能力来看,这相当于之前的两个组件。通过液冷技术,我们成功将所有计算节点压缩进了一个机架中。这无疑是整个行业的重大变革:从集成式的NVLink变为拆分式的NVLink,冷却方式从风冷转变为液冷,组件数量从每台计算机约6万个,增加到每个机架60万个,功率达到120千瓦,且完全采用液冷方式。


现在一个机架中就能容纳一台算力高达1exa次浮点运算的计算机。 这台计算机里有3000到5000根电缆,总长度约两英里,包含60万个部件,数量相当于20辆汽车的零部件,并全部集成到了这台超级计算机中。公司期望打造出特定的芯片,然而目前无论是技术极限方面,还是制程工艺技术,都无法实现这一目标。该芯片预计有130万亿个晶体管,其中20万亿个用于计算。所以,解决办法是将其拆分,拆分成Grace Blackwell NVLink 72机架。最终,我们实现了世界上前所未有的极致纵向扩展,所达成的计算量和内存带宽达到了每秒570太字节,这台机器里的各项数据都以“太”为单位计量,而且其算力达到了exa次浮点运算级别,也就是每秒能进行一百万万亿次浮点运算。



11、英伟达对推理难题的思考与解决方案


公司关注效率与性能,旨在解决推理难题。英伟达视推理为“工厂”生成Tokens的过程,此“工厂”要产生收入和利润,所以构建时必须兼顾极高的效率与性能,因为其各方面都直接关系到服务质量、收入和盈利能力。图中横轴代表每秒生成的Tokens数量,如在ChatGPT输入提示后输出的标记,会被重组成单词。公司认为,要让人工智能更聪明,需生成大量Tokens,包括用于推理、一致性检查以及产生众多创意以供筛选的Tokens,因人工智能会反复审视成果,生成Tokens越多,人工智能越聪明。



给出智能答案的耗时存在实际限度,需解决两方面问题:既要生成大量Tokens,又要尽可能快完成,Tokens生成速率很关键。 但计算机科学和工厂生产中,响应时间与吞吐量存在根本矛盾,因批量处理到使用产品耗时久。一方面想给客户优质服务(即快速智能的AI),另一方面要让数据中心为更多人生成Tokens以实现收入最大化。理想状态是达到图表右上方,曲线呈正方形,能在产能限度内快速为每人生成Tokens,但难以实现,目标是让曲线下面积最大化,范围越大“工厂”越好。


每秒生成Tokens数量和每秒Tokens响应时间,一方面需大量计算浮点运算能力,另一方面需大量带宽和浮点运算能力。 好的解决办法是具备大量浮点运算、带宽、内存、资源,以及良好架构、高能源效率,还得有编程模型在复杂条件下运行软件。


传统大语言模型(LLM)能获取基础知识,推理模型借助思维标记解决复杂问题。 如安排宾客座位,传统大语言模型用不到500个标记快速作答但会出错,推理模型用超8000个标记思考得出正确答案。给模型推理问题后,R1推理尝试不同场景,给出并检验答案;上一代语言模型仅一次生成,用439个标记,速度快但答案错,标记浪费。增加难的变量,推理会变难,推理该问题用近9000个标记,且因模型复杂耗费更多计算量。



12、Blackwell 系统模型处理与复杂软件管理


对于经纵向扩展的Blackwell系统(即NV Link72系统),首要处理R1模型。 R1模型虽看似规模不大,却有6080亿个参数,下一代模型参数可能达上万亿。解决办法是采用流水线并行、张量并行和专家并行计算的多种组合方式。而且依据不同模型、工作负载及情况,计算机配置需改变,要在针对极低延迟优化和针对吞吐量优化间权衡,这使得人工智能“工厂”的操作系统复杂至极。


在预填充和实时批处理中,聚合工作负载管理十分关键。 比如KV缓存,能让GPU运行更佳。像读取数据后,访问约94个网站获取信息并生成报告。预填充阶段虽忙碌,但生成token不多;而与聊天机器人对话时,数百万用户同时操作,会大量消耗token生成和解码资源。根据工作负载,我们要动态决定分配更多GPU资源给解码还是预填充,这一动态操作极为复杂。上述还涉及流水线并行、专家并行、实时批处理以及聚合工作负载管理,还有将任务路由到正确GPU并通过内存层次结构管理器分配内存等操作,整个软件复杂程度超乎想象。


13、NVIDIA Dynamo:AI 工厂的操作系统


今天我们宣布英伟达Dynamo诞生,它本质上是人工智能工厂的操作系统。 以往运营数据中心,用类似VMware的操作系统编排企业IT上的不同应用程序,如今依旧。但未来,应用程序从企业IT变为智能体,操作系统从VMware类变为Dynamo这类,它运行于人工智能工厂而非数据中心。


我们将其命名为Dynamo是有原因的。发电机(Dynamo)开启了上一次能源工业革命,原理神奇,水流入转化为电,80年前就如此,后续发展到自动化,一切都源于它。所以我们把这个复杂的软件操作系统命名为英伟达Dynamo,而且它是开源的,众多合作伙伴参与开发,我们非常欣喜。







请到「今天看啥」查看全文