专栏名称: 中金点睛
图文并茂讲解中金深度研究报告
目录
相关文章推荐
51好读  ›  专栏  ›  中金点睛

中金 | AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相

中金点睛  · 公众号  · 金融  · 2025-03-28 07:33

正文

请到「今天看啥」查看全文


中金研究

上周,NVIDIA GTC 2025大会于美国加州顺利闭幕,在本届GTC中,NVIDIA CEO Jensen Huang发表了逾两小时的主旨演讲,从需求端、供给端全面分析了AI硬件行业的发展趋势。除了在超摩尔定律方向上延续“硬件核弹”战术外,公司也带来了CPO(Co-Packaged Optics,共封装光学)相关通信技术的重点更新。

点击小程序查看报告原文


Abstract

摘要


需求端: DeepSeek这一开源大模型在训练、推理端的降本创新引发了市场对算力通缩的担忧。本届GTC 2025特别强调了Scaling Laws已从预训练维度扩展至后训练+实时推理三个维度,并用实例证明在新应用范式下(如训练强化学习、推理思维链),tokens的消耗量远高于过去。此外,针对在商业落地场景痛点,发布了Dynamo推理软件助力算力成本进一步下降,并展示CUDA-X加速库开始赋能各行各业。


供给端:1)芯片及服务器方面, 我们认为整体GTC 2025的新品发布延续了“计算一代”(从2025年的Blackwell Ultra改款->2026年Vera Rubin->2027年的Rubin Ultra)+“存储一代”(升级至HBM4/4E后堆叠密度提升、单die存储容量提升)的规律。此外,“Jenson’s math”再度迎来更新,转向以GPU die的数量来计算机柜内GPU的数量。因此服务器端来看,NVL 8/72制式将在Vera Rubin中更名为NVL 16/144,并在Rubin Ultra中拓展至NVL576。在制程迭代之外,也试图通过超摩尔定律的先进封装(扩展至4die)、及架构优化(计算单元设计、I/O die分离)来实现算力增长,而在数据类型端暂时维持FP4的最低精度形式。 2)网络通信方面, 进一步明确了通信能力发展的路线图,涵盖C2C的NVLink 6/7,以及B2B的CX-9/10网卡。此外,GTC大会上正式发布了三款CPO交换机,其中一款Quantum CPO交换机(InfiniBand)有望率先于2H25实现量产交付,未来两款Spectrum CPO交换机(以太网)则有望在2H26交付。我们认为CPO目前仍处于产业化初期,距离规模商用尚面临散热难、维护难、实际TCO高等挑战。本次发布的CPO产品基于液冷、可插拔光连接器等方案,对散热、维护的难点给出解决思路。 长期来看,我们预期随着更多成本和技术问题得到优化、解决,CPO或将得到进一步扩大应用的机会,光器件与先进封装有望成为核心增量环节。


风险


生成式AI前沿模型进展、商业应用落地不及预期;新品研发及量产进度不及预期;CPO技术攻关不及预期。


Text

正文


行业需求:勾勒新“Scaling Law”蓝图,并发布Dynamo推理引擎



我们看到,在LLM预训练边际成本投入与收益比开始下降的背景下,加之开源模型DeepSeek“横空出世”大幅降低LLM训练及推理成本,当下投资者对算力硬件行业市场空间增长呈现了担忧。在GTC 2025中,NVIDIA CEO Jensen Huang在主旨演讲开篇重点讲述了公司对Scaling Laws的看法, 重申了在预训练过程后、后训练、长思维链推理等重点场景同样遵循Scaling Law,并加速token消耗,扩大算力市场需求, 举例来看,强化学习(RL)可以通过消耗大量token合成数据,解决数据稀缺问题,推动Scaling Law在后训练阶段延展;而推理端,也会因为从单次预测到逐步推理(思维链模式,CoT)而出现token需求激增。同时公司重申,2028年全球数据中心资本开支有望超过1万亿美元[1]。


图表1:Scaling law:从一个维度到三个维度的扩展

资料来源:Nvidia GTC 2025 Keynote,中金公司研究部


图表2:计算的拐点降至:2028年数据中心资本支出有望超过1万亿美元

资料来源:Nvidia GTC 2025 Keynote,Dell’ Oro,中金公司研究部


当下AI产业拐点已至,更多的商业落地机会推动推理任务占比在整个算力需求中持续增长。 根据NVIDIA管理层在GTC 2025 KEYNOTE上的展示,Blackwell GPU(以die计算)在头部四大云厂商的订单量已经超过Hopper一倍有余,我们认为推理需求在其中的比重呈现上升态势,并起到重要的贡献作用。 针对当下AI推理已进入商业化落地阶段的特点,系统吞吐和单用户响应能力是难以兼顾的痛点(如图3所示)。 如何设置batch size(批处理大小)来兼顾系统吞吐及单用户响应能力,实现硬件资源的最大化利用,进而获得最低的算力成本是各厂商努力的方向。 本届GTC大会发布了名为Dynamo的推理软件,来优化推理任务。 Dynamo可以协调并加速数千个GPU之间的推理通信,特别是在当下的分布式推理时代,分布式推理优化能力变得非常重要。为确保Prefill和Decode阶段的特定需求得到单独优化,并更大程度利用GPU资源,Dynamo也使用了我们在 AI进化论(2) 报告中所分析到的,与DeepSeek团队做法类似的Prefill/Decode分离模式。


图表3:大规模推理任务需要平衡单用户响应速度和整体吞吐量

资料来源:Nvidia GTC   2025 Keynote,中金公司研究部


硬件更新之芯片&服务器:超摩尔定律路径持续,系统级产品规格不断扩大



本届GTC大会英伟达公布了未来三年的主要数据中心GPU及其对应的系统级产品。 从FP4稠密算力维度来看,保持了三年翻10x的高速迭代。 从GPU计数方面,此次大会主旨演讲中NVIDIA CEO Jensen Huang对相关问题做了厘清,NVIDIA今后将以GPU die的数量来命名其系统及产品,而非以GPU的封装个数计算(即新的“Jensen’s Math”)。根据公司未来三年产品路线图:


► Blackwell Ultra: 相较Blackwell系列首代芯片(B200系列),预计2H25交付的Ultra系列芯片(即B300系列)采用了全新设计,通过引入新注意力机制指令集来实现部分硬件加速,FP4精度下的算力相较B200系列提升50%,内存配置也升级至288GB HBM3E(8个12层HBM3E堆叠),较B200系列实现翻倍。


► Vera Rubin/Vera Rubin Ultra: 自2H26起全新一代的Vera Rubin GPU有望成为NVIDIA的主力产品。相较Blackwell,Vera Rubin采用了全新的TSMC 3nm工艺节点(TSMC N3P)制造,在单die性能上相较上代产品实现明显提升。另外,根据SemiAnalysis的分析,从Rubin系列起,NVIDIA有望释放I/O die部分到独立的小芯粒(Chiplet)上,以此来增加更多有效的计算单元面积。系统级产品方面, Vera Rubin有望以NVL 144架构起步(实际依然为72个双Die GPU封装,与Blackwell NVL 72产品架构类似),且CPU采用了全新的Vera架构设计,包含88个NVIDIA自行定制的Arm核心,对应176线程,并提供与GPU间高速互联达1.8TB/s的带宽,相较Grace CPU和Blackwell GPU的互联带宽也呈现了一倍提升。进入2H27,有望推出Rubin Ultra系列产品,相较Rubin性能有望实现进一步跨越,主要包含了采用4x Chiplet设计(之前最多为2个)+16个HBM堆栈(之前最多为8个),实现了FP4稠密算力再翻倍的性能。从机柜产品设计来看,有望在2H27推出集成度高达576(对应144个封装单元)die的产品,即NVL 576。机架的部署模式有望演化为正交型,并可能采用PTFE背板代替现有连接方式。


► Feymann: 有望于2028年推出的产品,继续与Vera CPU搭配并迎来HBM升级。


图表4:NVIDIA 数据中心GPU产品对比(芯片及封装层级)

资料来源:Nvidia GTC 2025 Keynote,Semi Analysis,中金公司研究部


图表5:NVIDIA 数据中心GPU产品对比(系统层级)

资料来源:Nvidia GTC 2025 Keynote,Semi Analysis,中金公司研究部


硬件更新之网络:C2C/B2B通信协同进化,CPO交换机正式亮相




C2C和B2B互联持续迭代,助力scale-up和scale-out网络升级


Scale-up网络:NVLink升级支持片间互联演进。 Vera Rubin NVL144机柜方案中,Rubin GPU互联技术升级至NVLink 6,实现144颗Rubin GPU聚合,连接总带宽达到260TB/s,是GB300 NVL72的2倍。参考SemiAnalysis,NVLink 6沿用单通道224G SerDes技术,通过增加通道数实现3.6TB/s的双向带宽,相较上一代NVLink 5实现传输速率翻倍。英伟达计划在2027年下半年推出升级版Rubin Ultra NVL576,C2C互联技术迭代至第七代NVLink 7,聚合总带宽达到1.5PB/s,是GB300 NVL72系统的15倍。作为专用的C2C互连技术,我们预期NVLink的迭代升级将持续提升GPU间通信效率,从网络层面进一步强化其AI芯片集群计算性能。


Scale-out网络:Connect-X系列网卡与交换机协同,赋能机间互联。 Vera Rubin NVL144的scale-out网络扩展使用Connect-X9智能网卡,总带宽达到28.8TB/s,是GB300 NVL72系统的2倍;在Rubin Ultra NVL576系统中,总带宽提升至115.2TB/s。根据SemiAnalysis,Connect-X9单端口速率升级至1.6Tb/s,其兼具通信优化和计算卸载功能,能够与InfiniBand/Ethernet交换机协同提升B2B传输效率。英伟达在AI产品路线图中指出,Rubin平台计划利用Connect-X9和102T Spectrum6 CPO交换机赋能scale-out网络,预计于2028年登场的Feynman新一代计算平台则有望引入Connect-X10智能网卡和204T Spectrum7 CPO交换机的协同实现机柜间(board-to-board)高速互联的再升级。


图表6:Scale-Up和Scale-out网络迭代路线图

资料来源:SemiAnalysis,中金公司研究部



CPO交换机正式亮相,2H25-2H26有望商用落地


CPO(Co-Packaged Optics,共封装光学)方案构建高密度光互连。 CPO是一种光电共封的创新方案,将光引擎(负责光信号处理的组件)和专用集成电路(ASIC)通过先进封装技术异构集成在一个封装体内。CPO大幅缩短了光信号输入和运算单元之间的电学互连长度,减少了铜电路高速传输下的信号衰减和失真问题,能够提供更高的带宽、更优的信号质量、以及理论上较可插拔光模块更好的能效比。广义上CPO中的ASIC可以是交换芯片,也可以是GPU等AI加速芯片。目前大部分方案采用光引擎和ASIC封装在同一个基板(substrate)上,依赖于PCB板上的铜走线实现芯片间电信号连接,未来CPO技术将进一步走向晶圆级封装(Wafer-level CPO),将光引擎与ASIC集成于同一硅中介层(Interposer)上,光电互连间距缩短至微米级,互连密度进一步提升。


图表7:CPO和WL-CPO内部结构图解

注:WL-CPO指Wafer level CPO,即晶圆级封装CPO,Switch或者XPU与光引擎集成在同一硅中介层(Interposer)
资料来源:Imec官网,中金公司研究部


GTC 2025发布多款CPO交换机,2H25-2H26有望迎来交付。 GTC 2025大会展示了NVIDIA Photonics产品系列——三款CPO交换机Quantum 3450-LD(InfiniBand架构)、Spectrum SN6810和Spectrum SN6800(以太网架构),均采用液冷设计对板载硅光器件进行高效散热。其中,IB CPO交换机Quantum-X Photonics的整机吞吐量为115.2Tb/s(共144个800G端口),配置4颗28.8Tb/s Quantum-X800交换ASIC,每颗交换芯片对接6个可拆卸光学组件、和18个基于MRM(微环调制器)技术、采用TSMC N6先进封装工艺的1.6T硅光引擎。公司预计IB CPO交换机有望率先于2H25实现量产交付,未来Spectrum SN6810(128个800G端口,102.4Tb/s)和Spectrum SN6800(512个800G端口,409.6Tb/s)有望在2026年下半年正式交付落地。


图表8:GTC 2025大会上发布三款CPO交换机

资料来源:英伟达GTC 2025 Keynote,中金公司研究部


利用微环调制器,实现小尺寸、低功耗的硅光调制。 硅光调制器方案按照原理不同可分为马赫-曾德尔调制器(Mach-Zehnder modulator,MZM)和微环调制器(Microring modulator,MRM)。MZM调制器是目前商用化程度较高的成熟方案,基于光学干涉结构通过电信号控制光波的相位差以改变输出光强,具有热稳定性好、消光比大、工作波长范围广等优点,但存在尺寸大(普遍在毫米级)、功耗较高的问题。相比于MZM,MRM采用谐振器结构,尺寸较小、且功耗占优,但温度敏感度高、可支持的光学带宽窄、且制造工艺难度较大。台积电的MRM基于硅光子平台,采用3nm制程和Z形结设计提升调制效率,单个微环支持每通道200Gbps速率,通过多通道阵列能够实现1Tb/s总带宽;此外通过优化微环散热器设计和掺杂工艺,降低了MRM的温度敏感性。根据GTC 2025 Keynote,115.2T IB CPO交换机中每个硅光引擎采用MRM进行调制,实现200Gb/s单通道速率,且较传统方案可节省3.5倍功耗。


图表9:不同原理硅光调制器方案对比

资料来源:Nature Communications《Roadmapping the next generation of silicon photonics》(2024),菲魅通信官网,中金公司研究部


拆解GTC 2025大会上推出的总带宽为115.2Tb/s的Quantum-X CPO IB交换机结构: 一台交换机配置4颗28.8Tb/s Quantum-X800交换ASIC,每颗交换芯片对接6个可拆卸的光学耦合封装组件,每个光学组件中含有3个1.6T硅光引擎和3个小型可插拔光纤阵列连接器,合计每颗ASIC芯片四周集成18个1.6T硅光引擎。每个硅光引擎中PIC和EIC基于台积电COUPE工艺3D集成在衬底上,采用MRM将单通道速率调制成200Gb/s(8通道),借助可拆卸FAU通过8收8发共16根单模光纤实现信号的输入输出。外置激光源方面,整个115.2T CPO交换机共配套18个外置激光源模组(ELS),每个ELS搭载8颗CW光源(我们预计单颗功率约300mw),ELS产生的光信号通过2根光纤输入硅光引擎。外部连接方面,1152根单模光纤容纳于交换机前面板上的144个MPO连接器接口。


图表10:一颗28.8Tb/s   Quantum-X800交换ASIC周围集成3*6-18个1.6T硅光引擎

资料来源:英伟达GTC 2025 Keynote,中金公司研究部


图表11:一个可拆卸的光学耦合封装组件OSA内部含3个1.6T硅光引擎和3个小型可插拔光纤阵列连接器

资料来源:英伟达GTC 2025 Keynote,中金公司研究部


我们认为,CPO目前仍处于产业化初期,距离大规模商用推广尚面临一些技术、产业生态上的挑战。 1)散热问题仍需技术攻关: CPO中光电元件高密度集成,导致ASIC的热流密度激增,且高热流密度与周围的光引擎之间容易产生热串扰,传统风冷结构无法满足其散热要求,或需采用全液冷方案,然液冷系统的能耗和复杂度较高;此外,光器件对温度变化高度敏感,需精准控制温度以维持波长稳定性及功率。 2)维护和更换难度大: CPO方案中光引擎与ASIC深度耦合,光器件的可靠性普遍低于电子元件,且多个光引擎与ASIC集成后失效率进一步提升,现阶段光引擎仍采用固定socket形式,非可拆卸模式下若某一部件出现故障,通常需整机下架更换,维护成本高昂。 3)实际TCO可能更高: 考虑到当前CPO供应链不成熟导致前期研发试错成本较高,高精度封装工艺(如TGV电镀、TSV良率)亦推高制造成本,一台CPO交换机的实际TCO可能比成熟的可插拔解决方案高。


本次GTC 2025大会发布的CPO产品基于液冷、可插拔光连接器方案,对上述1)2)两项问题给出了解决方案,但液冷方案的成本仍需优化、可插拔方案的稳定可靠性亦有待验证提高。


长期来看, 我们认为随着Scale-out网络向更高速率需求演进,CPO技术有望凭借更高的带宽、更优的信号质量、以及理论上更好的能效比成为重要的迭代方向,而上述商业化面临的技术&生态阻力,有望随着英伟达、博通,以及云厂商和光通信产业链公司的共同开发,逐步寻求到平衡的解决方案。 我们预计CPO或将得到进一步扩大应用的机会,光器件与先进封装成核心增量环节。 硅光引擎、激光源(CW光源/ELS封装)、MPO连接器、光纤阵列等器件需求攀升;从工艺配套看,CPO依赖TSV/TGV、混合键合等工艺,先进封装价值占比显著抬升。


风险提示



生成式AI前沿模型进展、商业应用落地不及预期。 AI大模型训练成本与推理成本较高,当前各大厂纷纷加大资本开支投入以支撑对AI大模型及应用的研究。但是如果生成式AI模型技术创新不及预期、或者迟迟没有现象级AI应用出现,当前的AI支出将无法变现,影响下游客户进一步投入的意愿。


新品研发及量产进度不及预期。 硬件迭代周期或影响行业升级节奏。若下一代GPU、NVLink互联技术、或智能网卡等产品技术研发及量产进度不及预期,可能影响下游客户AI集群性能升级,AI产业预期或下修。


CPO技术攻关不及预期。 CPO依赖TSV、TGV、混合键合等先进封装工艺,且面临散热、封装兼容性等问题,若技术工艺攻关不及预期,可能影响CPO良率提升、成本下探速度,CPO渗透率或低于预期。


[1]https://www.nvidia.cn/gtc-global/keynote/


Source

文章来源

本文摘自:2025年3月26日已经发布的《AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相》

成乔升 分析员 SAC 执证编号:S0080521060004

李诗雯 分析员 SAC 执证编号:S0080521070008 SFC CE Ref:BRG963

郑欣怡 分析员 SAC 执证编号:S0080524070006

彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806

陈昊 分析员 SAC 执证编号:S0080520120009 SFC CE Ref:BQS925

贾顺鹤 分析员 SAC 执证编号:S0080522060002


Legal Disclaimer

法律声明

特别提示

本公众号不是中国国际金融股份有限公司(下称“中金公司”)研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料,须寻求专业投资顾问的指导及解读。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。

中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,中金公司及/或其关联人员均不承担任何形式的责任。

本公众号仅面向中金公司中国内地客户,任何不符合前述条件的订阅者,敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

一般声明

本公众号仅是转发中金公司已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见中金研究网站(http://research.cicc.com)所载完整报告。

本资料较之中金公司正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。

在法律许可的情况下,中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此,订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访http://research.cicc.com/disclosure_cn,亦可参见近期已发布的关于相关公司的具体研究报告。

本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有,未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。







请到「今天看啥」查看全文