证券研究报告名称:《通信行业2025年投资策略报告:通信视角下的新质生产力:科技自强,先进发展》
对外发布时间:2024年11月25日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
刘永旭 SAC 编号:S1440520070014
SFC 编号:BVF090
阎贵成 SAC 编号:S1440518040002
SFC 编号:BNS315
武超则 SAC 编号:S1440513090003
SFC 编号:BEM208
杨伟松 SAC 编号:S1440522120003
汪洁 SAC 编号:S1440523050003
曹添雨 SAC 编号:S1440522080001
尹天杰 SAC 编号:S1440524070016
02 算力为基,自主可控大势所趋,Agent及B端应用崛起算力:海外景气度高企,重视增量变化,国内自主可控大势所趋
展望2025年,我们认为算力领域投资分为海外景气度投资以及国内自主可控两大类:
海外景气度投资:1)估值波动,AI算力全球估值体系参照英伟达,参照台积电Cowos扩产节奏,25年算力产业链确定性较强,看好算力产业链;2)围绕增量变化及新技术投资,25年最重要的是英伟达NVL36、72机柜开始出货,以及为了应对更大模型参数量训练,单机柜中AI芯片互联数量将持续提升,其中铜连接、液冷、电源变化最大,CPO及MPO等新技术也将开始在2025年不断走向成熟;3)围绕份额变化投资,随着产业链的深入,光模块、PCB等环节的供应商明年会有份额的变化。
国内自主可控:根据2023年底美国商务部和安全局(BIS)发布的一揽子规则,目前国内所能获取的AI芯片性能上限基本就在H20这一级别,考虑到H20的FP 16算力只有B200芯片的6.7%,其性能并不足以支撑国内向更大参数量模型去探索,因此国内AI芯片发展紧迫性凸显。我们认为,未来国内AI芯片领军企业,将同时在出货量、生态和产品力上具有领先性。同时,考虑到国产芯片制程、工艺以及明年国内互联网客户开始推进机柜方案,建议重视国产电源、液冷等相关标的。新技术:CPO及MPO自2025年逐步迈向成熟
MPO(Multi-fiber Push-On)是一种高密度光纤连接器,广泛应用于光通信系统中。其设计允许在一次连接中同时传输多路光信号,极大地提高了光纤连接的密度和效率。MPO连接器通常用于数据中心、服务器和其他高性能计算环境,以满足日益增长的数据传输需求。
MPO技术起源于20世纪90年代,最初用于电信行业的高密度光纤连接。随着数据中心和云计算的快速发展,MPO连接器逐渐成为光通信领域的标准配置。近年来,随着大模型对大型算力集群的需求,以及800G和1.6T光模块的普及,MPO技术的应用范围和市场需求进一步扩大。
其主要功能包括:1)高密度连接:支持多达12根光纤的并行连接,显著提高连接密度;2)快速插拔:设计便于快速安装和拆卸,适合频繁更换和维护的场景;3)低损耗:优化的光学设计确保低插入损耗和高回波损耗,保证信号质量;4)兼容性:可与多种光纤类型和标准兼容,适应不同的应用需求。
使用场景:1)数据中心内部互联:用于连接交换机和服务器,提供高带宽的光纤连接;2)服务器集群互联:在高密度服务器环境中,MPO连接器用于实现服务器之间的快速、高效连接;3存储网络:用于连接存储设备和服务器,支持大数据传输和高性能存储操作。
在高性能计算环境中,MPO连接器通常用于光模块与光纤之间的连接。例如在一个CPO中,可能需要多个MPO连接器来实现高密度的光纤连接。如一个800G光模块可能使用两个MPO连接器来支持16条光纤的并行传输。GPU通常需要通过高速光纤网络与其他计算节点连接。MPO连接器用于实现GPU与交换机之间的高带宽连接。
MPO连接器市场主要由几家大型光通信设备制造商主导,包括Finisar、博通、Molex等。这些公司凭借其技术优势和市场份额,在市场上占据领先地位。此外,随着技术的不断进步,越来越多的新兴企业也在进入这一领域,市场竞争日益激烈。
MPO技术凭借其高密度、低损耗和快速插拔的优势,在光通信领域占据了重要地位。随着如英伟达计算集群中服务器数量、单台服务器中的GPU卡数量的快速增加,在未来的超大规模计算集群中,对于MPO互联的需求量一定会快速提升,有望带动MPO整体市场规模的提高。铜连接:机柜方案成为主流,铜连接需求高速增长
交换网络中常见的连接解决方案包括光模块+光纤、有源光缆(AOC)和直连电缆(DAC)。DAC可以进一步分为有源DAC和无源DAC:
有源光缆由两端的两个模块组成,由在中间的一段光纤连接。光学模块和光缆是集成的,两端的光学模块都需要激光组件。与其他电缆相比,AOC具有许多优点。它提供高传输速率、远距离功能、低功耗、重量轻且易于使用。这些好处是通过采用光传输而实现的,它克服了无源光纤电缆或其他电缆类型的局限性。AOC有源光缆设计轻质紧凑,信号信噪比表现好,抗干扰能力强,是数据中心、HPC计算和InfiniBand交换机互连的理想选择。
DAC(直连电缆)电缆是一种网络电缆,用于连接不同的网络设备(例如交换机、路由器和服务器)以形成网络。它也称为双轴电缆,由两根绞合在一起形成电缆的导线组成。它可以以10Gbps、25Gbps、40Gbps、50Gbps和100Gbps的速度传输数据,具体取决于所连接的网络设备。此外,DAC电缆可以制造为各种长度,例如1m、3m、5m、7m和10m,以适应不同的网络设置。有源DAC电缆不仅可以转换信号,还可以放大信号,它们不易随着距离的推移而丢失信号,非常适合较长的电缆长度。无源DAC电缆是将数字信号转换为模拟信号的简单电缆。这些电缆不需要外部电源,只是通话的“可靠通道”。DAC不包含光电转换器模块,电缆端由简单的电缆连接器组成。这使得它们具有很高的成本效益,由于其经济实惠和高速性能,无源DAC已成为实现短距离传输的优秀解决方案。通信网络中常见的连接解决方案包括光通信和高速电通信,无源DAC作为电通信的主要解决方案其不包含光电转换器模块,具有很高的成本效益和运营可靠性,成为实现短距离传输的优秀解决方案。目前的铜缆已经实现224G以太网Serdes高速通信技术升级,短距离传输性价比突出,在AI服务器高集成度的趋势下,我们认为铜连接将成为AI服务器的重要组成。
GB200NVL72服务器采用大量的铜连接作为机柜内部通讯方式。GB200NVL72机柜中不同的计算托盘间采用电缆进行互联,内部使用电缆长度累计接近2英里,共有5000多条独立电缆。计算托盘内同样采用大量铜连接作为服务器内的GPU芯片互联。
铜连接的优势:
性价比优势:在短距离内,光模块价格显著高于铜缆以及连接器,铜连接方案的成本相对较低。并且其具有高兼容度并不需要额外的转换设备。
可靠性优势:可靠性用平均无故障时间(MTBF)来衡量。无源铜缆的MTBF大约为50000万小时――通常比光缆的行业标准高出一个数量级。铜缆为可靠的数据传输至关重要的企业数据中心提供了一大好处:避免停运时间。随着数据中心中GPU规模数量的显著提升,通信方式的可靠性成为重要的考量因素。
散热及低功耗优势:DAC消耗<0.1W,相比与有源光缆AOC和有源电缆AEC来说几乎可以忽略不计,相对来说散热更容易。并且铜连接整体设计更加灵活,机柜扩展维护相对更加简单。
GB200NVL72服务器中包含三种铜缆:三种柜内线(NVL72机柜以内的定义为柜内线)以及柜外线(机柜间的互联定义为柜外线)。计算托盘间的铜缆连接:单张B200对应1条NVLink5.0连接,每条传输双向1.8TB/s带宽,Serdes对应的规格为224Gbps通信协议,铜缆也采用难度更高的224Gbps产品,即单张B200上面通常连接72个差分对(72根线)即可以达到可支持的1.8TB/s的带宽。NVL72单个Rack中共有72张B200,可以得出需要5184根线(72*72),加上eprom线,合计为5544根,平均长度约0.6米。则合计5544*0.6=3326.4米,考虑背板线主要采用高端的26AWG型号的线,单价按照12元/米计算,则单个NVL72机柜中背板线高速铜线价值量为39916.8元/台。交换机内部互联:NVSwitch芯片全部通信带宽连接背板连接器,总共需要576根overpass线,每根0.3米,9个交换托盘合计1555.2米,单价按照7元/米计算,则合计10886.4元/台。在NVL36解决方案中,NVSwitch芯片一方面连接背板连接器,一方面连前端I/O端口,其中连接背板连接器的OverPass1线共288根,每根0.3米;连接前端I/O端口的OverPass2线目前也为288根(带宽前后端一致),每根0.3米,9个交换托盘合计也为1555.2米,单价按照7元/米计算,则合计10886.4元/台。
计算托盘内部:由PCIE线实现CPU与I/O端口之间的互联,单个tray预计0.4*16*8*4=205米,NVL72合计18个tray盘,则合计为205*18=3690米。单价按照2.5元/米计算,则价值量为9225元。柜内线高速铜缆市场规模测算:对于中国厂商来说,交付能力、产品质量均处于领先地位,份额仍在不断提升。我们考虑NVL72三部分柜内线,其价值量保守估计约为39916.8+10886.4+9225=60028.2元/台。考虑到明年NVL36、NVL72 机柜整体出货量(等效NVL72预计4万台以及NVL36两种版本合计约3万台),仅柜内线铜缆高速线市场就达到35亿+。目前柜外线大批量出货,高速铜线增量明显。并且,明年AMD、谷歌TPU以及其它大厂也纷纷采用机柜方案,其所用高速铜线规模也较大。
根据线束中国信息,目前安费诺是GB200 NVL72服务器铜连接的供应商,其产品可以支持224G高速通信的批量交付,受限于产能和产品稳定性考量,部分国内企业或成为安费诺供应商从而受益于英伟达NVL72服务器铜连接供应体系。
液冷:机柜功耗大幅增加,液冷黄金时代来临
单卡功耗增加以及更多的卡集中在一个机柜,散热方式从风冷升级为液冷。根据冷却介质不同,数据中心冷却方式分为风冷和液冷,而液冷方案可分为冷板式、喷淋式和浸没式三种,当前伴随单台服务器功率的不断提升,液冷服务器渗透率有望快速提升。数据中心作为持续的产热大户,高效且稳定的散热系统是重要的配套设施,根据冷却介质差异可划分为风冷和液冷两种方案。与风冷方案利用空气作为冷却介质不同,液冷方案以液体(导热油或氟化物)作为冷媒,利用液体流动将数据中心ICT设备内部元器件产生的热量传递到设备。相比传统风冷,液冷技术具备更高的散热效率、低能耗、低TCO、低噪声和低占地面积等显著优势,是单机柜功耗持续增长背景下解决散热压力、应对节能挑战的重要途径。
功耗上限/PUE范围/经济效益三重优势加持下,液冷系统加速渗透具备较强确定性:
1)AIGC推动功耗快速提升,单芯片功耗实现数倍式飞跃。随着内核数量的增加,处理器性能与功率实现了同步增长,带动CPU单芯片功耗同步提升,而GPU由数百个内核组成,可同时处理数千个线程,功耗较CPU显著更高,英伟达GB200由两个1200W GPU与300W CPU构成,总功耗高达2.7KW,单芯片功耗的翻倍式提升使得其对散热的要求远远超过传统风冷能力范畴(实际上部分冷却板式液冷系统也仅能满足单芯片功耗270-500W范畴)。
2)单机柜功率密度提升,已突破传统风冷散热上限。单台通用服务器通常仅配置2颗CPU,单台服务器功耗通常不到1KW,而根据英伟达提供的数据,NVL 72服务器配置了36颗GB200 GPU,受新增多颗高功耗GPU配置影响,NVL 72服务器的系统功耗可达120 KW,较通用服务器大幅提升。当前我国主流风冷机柜功率范围大致在7-10 KW范围内,则需要多台传统风冷机柜才可容纳一台NVL 72服务器,机柜空间冗余较多,且机柜间排布需有一定间隔以完成散热,互联成本增加且机房使用效率将大幅降低。因此,伴随高功耗AI服务器的上架,为在满足功耗要求的基础上提高机房的空间利用率,高功率机柜或将同步增长。3)政策严控PUE,更高效的散热方案是关键。PUE为数据中心总耗电量与IT设备耗电量的比值,其值越接近1,说明数据中心对于电能的利用越有效,是表征数据中心能耗的核心指标,而空调系统作为除IT设备之外的第二大能耗方向,也是降低PUE的关键所在。随着碳中和碳达峰战略的深入推进,针对数据中心这一用电大户,国家层面以及地方政府均出台了系列政策对PUE进行严控。新建项目方面,普遍要求新建的大型及以上数据中心PUE不超过1.3,对国家枢纽节点的PUE要求更为严苛,“东数”节点要求控制在1.25以内、“西算”节点要求控制在1.2以下;存量项目方面,要求逐步对PUE>1.5的数据中心进行改造。据统计,传统风冷方案的数据中心PUE一般在1.5左右,采用液冷的数据中心PUE可以降低至1.2以下,从当前实际情况来看,实地运行的数据中心PUE较政策要求仍有较大差距,若想严格达成政策目标,液冷迫在眉睫。4)全生命周期角度看,固定IT需求下液冷系统具备较强运营优势。数据中心全生命周期成本(TCO)包含 CAPEX 和 OPEX 两部分,具体包括了数据中心配套设备购置成本(土建配电等)与建成后的运营支出(利润维度主要是电费与折旧)。总体看液冷相对风冷系统具备较高的建造成本,以液冷造价0.95-1.05 万元/KW(含室外冷源),风冷造价0.35 万元/KW测算,若NVL 72 单机柜功耗在120W左右,则液冷系统造成成本为114-126万元(约16万美元),较风冷系统贵78万元。但从运营角度看,考虑到液冷系统PUE远低于风冷系统,则对应固定功率的IT设备,液冷数据中心的整体耗电量远低于风冷系统,且该耗电量节约带来的运营成本减少将伴随数据中心功耗规模的扩大而快速扩大。从经济效益角度看,大规模高功耗数据中心使用液冷系统将具备较高性价比。电源:功率密度持续升级,量价齐升、格局优化,重视国产AI芯片电源
AC-DC电源是当前产业重点
从供电过程本质上,电源本身不产生任何能量,只是作为电网中电能的传导,其核心是实现整流与变压两项功能。整流即是实现不同形态电能的转换(直流变交流、交流变直流),变压即是实现电压的升高或降低。此外,针对于特定场景,电源会添加额外功能,如服务器电源就需要在散热、监控、电流调节上做额外的功能追加从用途功能分类上,电源可分为嵌入式电源与非嵌入式电源,嵌入式电源通常被直接安装在设备内部或特定空间内,又可分为普通开关电源与模块电源两类,其中模块电源往往是被镶嵌在电路板上。
算力需求飞跃带来用电需求急剧上升
AI需求将带动能耗进入快速增长阶段。耗电量可以根据AI服务器的预计销售量及其额定功率进行预测,考虑到AI服务器的快速放量,预计2026年AI带来的电力消耗有望达到2023年的10倍。当前算力需求主要由模型训练所贡献,后续伴随AI应用快速落地,算力与算力能耗需求增长仍有进一步提速空间。
核心看,伴随服务器(尤其是AI服务器)功耗总额的快速提升,在OCP ORV3标准限制下服务器电源必须通过提升功率密度并维持高能源转化率(钛金96%以上)以满足服务器运转需要。更好的材料、更优的拓扑、更多的集成是功率密度提升的主要途径,因此电源行业不仅享受了总功耗提升带来的需求快速上行,同时也因为材料变更、散热需求加强等因素带来了单瓦特价格提升现象,并助力行业空间快速扩容。此外,考虑到近期大陆区域外流片难度加大,伴随大陆区域流片芯片占比增加,电源功耗需求有望呈现进一步提升趋势。
从实际配置角度看,服务器整机品类繁多,不同服务器芯片配置方案不同。以DGX系列为例,DGX A100整机功耗上限6.5KW,DGX H100 整机功耗上限 10.2KW,NVL 72 整机功耗120KW。仅就AI服务器电源而言,可通过各类芯片的全球出货量预估出其每年市场空间的最小值(冗余配置带来不确定性),即24/25年AI服务器电源可实现124/296亿元市场增量,相较过去市场规模实现超高速增长。此外,伴随单机柜容纳GPU数量逐渐增多,机柜功耗总额快速提升(NVL 72总功耗已达120KW)。机柜类服务器占比的提升在三个层面对供电系统提出更高要求:1)更高性能的供电总线;2)更高压的交流与直流电(如DC/DC模块电压输入可达800V,从而大幅减少发热损耗);3)更低损耗的内部供电电路。从而使得电源获得了额外的溢价能力,市场空间更加广阔。国产AI芯片:25年值得期待,重视更可控、更具产品力的AI芯片
GPU具备图形渲染和并行计算两大核心功能。GPU具有数量众多的运算单元,适合计算密集、易于并行的程序,一般作为协处理器负责图形渲染和并行计算。对于国内来说,民用图形渲染领域买单的人是游戏爱好者,GPU公司需要跟大型游戏厂商进行适配合作,背后的生态支持需要大量工作。对于智算领域,生态要求极高,需要基础算子及应用程序算法的持续积累和优化,英伟达的CUDA具备绝对的生态优势,其次互联能力要求也极高,并且由于海外对国内使用先进制程有诸多限制,也限制了国内AI芯片的迭代。
我们认为国内AI芯片厂商能否脱颖而出,核心看以下三点:
出货量至关重要:国产AI训练芯片研发周期2年, 人员500人以上, 则需要人员费用500*80万*2=8亿, 7nm流片费用1500万美金, EDA、 IP数千万美元, 则一颗芯片整体投入约10亿。按照训练芯片单价7万, 毛利率50%测算, 则需要出货至少达到3万片才能分摊研发成本。
构建自主生态:兼容英伟达CUDA在短期可以减轻开发和迁移难度;长期来看,国产GPU如果完全依赖CUDA生态,硬件迭代将受英伟达的开发进程束缚。对于很多互联网大厂来说,自主生态的路会更长。
产品力:做产品而不是做项目,核心是互联网客户。
风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;大模型算法更新迭代效果不及预期,可能会影响大模型演进及拓展,进而会影响其商业化落地等;汽车与工业智能化进展不及预期等。证券研究报告名称:《人工智能2025年投资策略报告:算力为基,自主可控大势所趋,Agent及B端应用崛起》
对外发布时间:2024年11月25日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
于芳博 SAC 编号:S1440522030001
方子箫 SAC 编号:S1440524070009
辛侠平 SAC 编号:S1440524070006算力芯片快速升级,高端产能于周期底部积极扩产
英伟达Blackwell提升算力性价比,关注AI服务器新的机架式设计带来的机会
2024年3月,英伟达在GTC会议上发布以Blackwell架构为基础的新产品线,产品性能迎来大幅提升,同时推出新型机架式AI服务器产品GB200。Blackwell架构在单芯片训练方面的FP8性能是其上一代Hopper架构的2.5倍,在推理方面的FP4 性能是其上一代Hopper架构的5倍,采用台积电N4P工艺节点,提供高达20 petaflops FP4的算力。与H100相比,B200的晶体管数量是其2倍多,单个H100最多提供4 petaflops算力,B200实现5倍性能提升,大幅优化芯片性能,与此同时算力性价比在快速提升。Grace Blackwell超级芯片通过900GB/s超低功耗的NVLink芯片间互连,在服务器设计上推出了新型机架式AI服务器,GB200服务器成为了英伟达产品的新形态。
继Blackwell之后,Nvidia Rubin平台于2024年6月Computex大会上亮相。该平台具有新的GPU架构、新的ARM架构CPU Vera、新的HBM4存储颗粒、覆盖12颗HBM4的更大尺寸CoWoS封装,以及NVLink6、CX9 SuperNIC网卡和新一代融合IB网络与以太网的新型交换机X1600。先进制程、先进封装积极扩产,AI带动半导体进入新的成长期
制程迭代是芯片算力提升的关键因素,AI算力需求的爆发催生了对先进制程的强需求。AI大模型发展对芯片算力提出更高要求,未来更成熟的AGI模型所需算力是现在GPT-4所需算力的1万倍。而解决高算力需求的一种方案是采用更为先进制程的芯片,因为芯片制程越先进,功耗越低、计算速度越快。如2nm芯片功耗约为16nm芯片的10%,而性能约为16nm芯片的2倍以上。台积电估计其即将推出的N2P节点的功耗可能比N3E节点低30-40%。目前头部Fab厂下一个最先进的工艺节点均为2nm,如台积电计划将其2nm工艺于2025年下半年投产,三星计划在2025年实现移动应用领域的2nm量产,英特尔等效台积电2nm芯片工艺Intel 20A预计2026年量产。
服务器需求将超过智能手机成为先进制程最主要的驱动力。历史上,智能手机的迭代更新推动了芯片制程的不断演进,但随着AI应用的计算需求上升,服务器成为主要的算力中心,且对高算力的追求使得其对先进制程呈现出越来越高的需求,AI芯片功耗较高,且需要更小的尺寸,因此AI芯片对先进制程的迫切需求将推动服务器需求成为先进制程最大的驱动力。Sumco估计,在AI服务器出货量强劲增长的推动下,服务器对先进制程晶圆的需求量最快将在今年超过智能手机。
在2nm制程领域,预计台积电市占率将达4成以上,英特尔达3成以上。目前2nm的主要玩家包括台积电、英特尔和三星,台积电将在位于台湾新竹和高雄的工厂增加2nm产能,亚利桑那州的两个晶圆厂也将增加2nm产能。英特尔在亚利桑那州新建两个2nm晶圆厂,在俄亥俄州的两个晶圆厂也将提供支持。三星可能会在韩国和美国的晶圆厂增加2nm产线。根据产能规划,预计将来在2nm制程领域,台积电产能将占40%以上,英特尔占30%以上。
先进制程面临物理约束瓶颈,CoWoS、HBM等先进封装成为提高芯片性能的重要解决方案。AI大发展使得算力需求爆发式增长,提高芯片算力的一种方案是采用更为先进的制程,但由于量子隧道效应,5年内芯片制程将在1.4nm附近遇到物理瓶颈,因此先进封装成为另一种提高芯片算力的重要解决方案。
3D封装通常特指芯片通过TSV直接进行高密度互连,典型的案例即HBM。同时3D封装也包括3D without TSV:虽然多颗芯片在物理结构上呈现3D堆叠形态,但其电气互连上均需要通过基板(除极少数通过键合线直接连接的键合点),即先通过键合线/凸点连接到基板,然后在基板上进行电气互连,而非TSV。在某些场景下,此类集成也被归类为2D+集成以与3D TSV进行区分,典型案例即TSMC的InFO_PoP。
CoWoS为HPC和AI计算领域广泛使用的2.5D封装技术。台积电早在2011年推出CoWoS技术,并在2012年首先应用于Xilinx的FPGA上。此后,华为海思、英伟达、谷歌等厂商的芯片均采用了CoWoS,例如GP100(P100显卡核心),TPU 2.0。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术,绝大多数使用HBM的高性能芯片,包括大部分创企的AI训练芯片都应用CoWoS技术。
SoIC具有尺寸减小和性能提高优势,采用超高密度垂直堆叠,实现高性能、低功耗和最小的RLC,支持亚10微米键合间距的高密度芯片间互连。目前SoIC技术有SoIC-X(无凸点)和SoIC-P(有凸点)两种实现形式。SoIC-X用于高性能设备,如AMD的3D V-cache和Instinct MI300 AI产品。预计到2027年可以组装出顶部为台积电的A16、底部为台积电N2的芯片。通过3微米键合间距的TSV连接,密度是目前9微米间距的三倍。SoIC-P设计用于低成本应用,采用25微米微凸点技术。台积电计划在2025年推出F2B SoIC-P技术,用于将0.2光罩大小的N3顶部芯片与N4底部芯片配对,使用25微米间距微凸点连接。到2027年,台积电将推出F2F有凸点SoIC-P技术,能够将N2顶部芯片与N3底部芯片配对,间距为16微米。改进的混合键合技术旨在使台积电的大型高性能计算客户(如AMD、Broadcom、Intel、NVIDIA等)能够为苛刻应用构建超高密度的处理器设计,芯片间距和总占地面积至关重要。
NVIDIA和AMD已预订2024和2025年的全部SoIC产能。NVIDIA的Blackwell架构AI芯片和AMD的MI300系列AI加速器都将采用SoIC技术,显著提升计算能力和效率。苹果计划在2025年大规模采用SoIC技术,用于AI服务器和M系列芯片。2023年SoIC的产能约2000台,台积电计划到2024年底,将SoIC产能提升到五千至六千台,2025年底提高至一万台,是2023年的五倍。
AI持续高景气带动CoWoS需求不断提升。2023年一季度以来,AI服务器的需求不断增长,促使台积电CoWoS封装产能紧缺,台积电董事长刘德音在2023年股东会上表示,由于AI需求增加,先进封装需求远大于目前产能,迫使公司要尽快增加先进封装产能。
HBM 3D堆叠提升内存性能,GPGPU上应用广泛。随着数据的爆炸式增长,内存墙对于计算速度的影响愈发显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片聚焦的关键问题。如同闪存从2D NAND向3D NAND发展一样,DRAM也正在从2D向3D技术发展,HBM为主要代表产品。与传统DRAM不同,HBM是3D结构,它使用TSV技术将数个DRAM裸片堆叠起来,形成立方体结构,与传统内存相比,HBM的存储密度更大、功耗更低、带宽更高。目前HBM多用于与数据中心GPGPU配合工作,可以取代传统的GDDR。
预计2028年全球先进封装市场规模增至786亿美元,2022-2028年CAGR达到10.0%。根据Yole数据,2022年全球封装市场中,先进封装占比已达到47%。预计到2028年,先进封装市场占比将增至58%,规模约为786亿美元,2022年-2028年CAGR约为10.0%,明显高于传统封装市场的2.1%和市场整体的6.2%。
全球晶圆代工龙头台积电打造全球2.5D/3D先进封装工艺标杆,未来几年封装市场增长主要受益于先进封装的扩大。台积电在先进封装上已取得了可观的收入体量,技术布局也进入关键节点,未来投入规模将持续加码。在OSAT厂商中,日月光VIPack先进封装平台包含六大核心技术,安靠推出FCMCM(倒装多晶片模组)、2.5D(TSV)等五大先进封装解决方案。国内长电先进聚焦bumping,Fan-out CSP晶圆级等先进封装,通富微电在2.5D/3D先进封装保持国内领先,深科技专注存储封测领域,并聚焦倒装工艺(Flip-chip)、POPt堆叠封装技术的研发。
内存带宽成为算力卡口,HBM需求紧迫迭代迅速
算力芯片配套HBM壁垒高,国内部分厂商具备相关技术储备。TrendForce数据显示,2022年三大原厂HBM市占率分别为SK海力士50%、三星电子约40%、美光约10%。NVIDIA H100、A100主采HBM2e、HBM3,H200主采HBM3e。以H100为例,搭载HBM3技术规格,其中传输速度也较HBM2e快,可提升整体AI服务器系统运算效能。国内方面,目前没有能够生产符合HBM要求的内存颗粒厂商,封测、材料、设备等供应商具备相关技术储备。
从HBM的生产工艺来看,DRAM颗粒为定制的DRAM颗粒,工艺难点在于封测。TSV、大规模回流模塑底部填充(MR-MUF)、自对准、混合键合等工艺很大程度上影响HBM的性能和良率。
(1)TSV:不采用传统的布线方法来连接芯片与芯片,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片。制作带有TSV的晶圆后,通过封装在其顶部和底部形成微凸块(Micro Bumping),然后连接这些凸块。由于TSV允许凸块垂直连接,因此可以实现多芯片堆叠。最初,使用TSV接合的堆栈有4层,后来增加到8层。最近,一项技术使得堆叠12层成为可能,SK海力士于2023年4月开发了其12层HBM3。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF),但SK海力士使用MR-MUF工艺,可以减少堆叠压力并实现自对准。这些特性使SK海力士能够开发出世界上第一个12层HBM3。
(2)MR-MUF:将半导体芯片堆叠起来,并将液体保护材料注入芯片之间的空间,然后硬化以保护芯片和周围电路的工艺。与在每个芯片堆叠后应用薄膜型材料相比,MR-MUF是一种更高效的工艺,并提供有效的散热。目前SK海力士主要使用MR-MUF工艺生产HBM2e/3/3e,使得其领先于三星电子和美光,后者主要采用TC-NCF工艺。MR-MUF工艺需要使用液态环氧树脂(EMC),目前全球仅日本namics独供。除EMC外,HBM封装还需要底部填充胶用于FC工艺,采用PSPI作为硅中介层中RDL的再钝化层,还需要IC载板、DAF、Solder ball等材料。
(3)自对准:在 MR-MUF工艺期间通过大规模回流将芯片重新定位到正确的位置。在此过程中,热量被施加到芯片上,导致相关凸块在正确的位置熔化并硬化。
(4)混合键合:C2W混合键合具有多种优势,①允许无焊料键合,减少键合层的厚度、缩短电气路径并降低电阻。因此,小芯片可以高速运行,就像单个芯片一样。②通过直接将铜与铜接合,可以显着减小凸块上的间距。目前,使用焊料时很难实现10 um或更小的凸块间距。然而,铜对铜直接键合可以将间距减小到小于1um,从而提高芯片设计的灵活性。③先进的散热功能。④上述的薄粘合层和细间距影响了封装的形状因数,可以大大减小封装尺寸。目前混合键合主要用于单层键合或两个芯片面对面堆叠,SK海力士2022年用混合键合完成了8层HBM2e的堆叠,正在开发用于更高密度、高堆叠HBM的混合键合。
供需持续紧缺,HBM挤压DRAM产能。从需求端看,云计算厂商将更多资本开支投入AI基础设施,2024年CSP的资本开支增速在30-40%,主要来自AI推动,传统服务器需求基本持平,预计2025年CSP资本开支维持大幅增长。算力需求的快速增长,算力卡的数量和配置快速升级,最终带来的是算力芯片和HBM需求的快速增长。结合海外存储厂商和咨询机构的预测,我们认为2024年HBM市场规模达到160亿美金,同比增长300%,2025年达到320亿美金,同比增长100%。从供给端看,HBM供应仍然紧缺,在传统DRAM库存修正的情况下,HBM由于AI服务器的强劲需求,挤占DRAM产能的现象还在持续,涨价持续。
HBM快速迭代,HBM4即将进入流片阶段。结构上,2025年HBM3e将占据主导,根据SK海力士,2024年其HBM3e收入将占HBM收入一半以上,2025年12层HBM3e供给量将超过8层产品,12层HBM4计划于25H2发货。(1)HBM3e:三大原厂相继推出12Hi产品,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上。(2)HBM4:三星、海力士计划24Q4开始HBM4的流片,预计2026年用在英伟达下一代的Rubin芯片上。
光模块(Optical Modules)作为光纤通信中的重要组成部分,是实现光信号传输过程中光电转换和电光转换功能的光电子器件。光模块的工作原理如图:发送接口输入一定码率的电信号,经过内部的驱动芯片处理后由驱动半导体激光器(LD)或者发光二极管(LED)发射出相应速率的调制光信号,通过光纤传输后,接收接口再把光信号由光探测二极管转换成电信号,并经过前置放大器后输出相应码率的电信号。电信号要转化为光缆可传输的光信号则需要一个转化器件,这就是光模块。从结构上看,光模块由三大部分组成,分别是光电器件(TOSA/ROSA)、贴有电子元器件的电路板(PCBA)和LC、SC、MPO等光接口(外壳)。光模块PCB成本占比在3-5%,速率传输区PCB设计和基材选材和影响光模块传输速率光模块PCB是光模块中的关键组件,它承载着复杂的高速信号传输任务。根据中际旭创招股书披露,光模块成本主要由光器件、电路芯片、PCB板以及外壳构成。其中,光器件占光模块成本最高,在70%,电路芯片15-20%,PCB成本占比在3-5%。从结构上看,光模块PCB基本都可以分为四个区域,分别是接口区,信号传输区,电芯片BGA区与及光芯片Bonding区。(1)接口区:接口区也即是经常所说的“金手指”,PCB上为电连接口,作用为将光模块内电信号与外接设备电信号进行互换传输的区域。作为接口,它须与插入的设备进行适配,因而其在物理形态会因为数据传输特定的要求的有一定变化。(2)速率传输区:速率传输区起到连接接口区和电芯片区域的作用,其是影响光模块传输速率极为重要的部分。通常来说,不同封装方式,调制方式的光模块(本质反应的是光模块的传输要求)对速率传输区内传输线的数量与单通道的传输速率均有特定的要求。以400G光模块为例,其主要采用QSFPDD或OSFP封装,8收8发,单通道传输50Gbps,采用PAM4调制,有效提高了信号传输效率。PCB基材选型与设计影响光模块传输速率,采用mSAP与SLP工艺。与速率传输区关联最大的是PCB基材的选型,不同协议下对应的材料等级案例。与速率传输关键的另一大重要因素即为信号传输线的设计,随着速率的提升,由于传输协议的限制,光模块的功能密度也在不断增加,因此PCB层数也在一直增加,同样由于板厚在协议中的规定,每层的介厚也在不断减少,由于匹配阻抗,传输线线宽也不断收窄。由于金手指互联与孔传输的反射要求,综合种种因素,导致高端光模块PCB必然走向任意层互联及SLP或mSAP工艺。(3)芯片连接区。芯片连接区包含电芯片(DSP)封装区与光芯片Bonding区。光模块速率持续升级,PCB配套高速化、高散热、细线化设计:展望未来,光模块的发展主要是伴随着应用市场对其高传输速率、小尺寸封装、低功耗、长距离的要求而发展。这也就对应其对PCB的要求,也即是高速化、微孔细线化、高散热性。根据方正科技官网,其800G光模块产品PCB构成如下:根据方正科技官网数据,该800G光模块PCB层数为10层,采用的基材为联茂EM890K,该基材具有极低的介电常数和损耗因子,且热传导性很高,有利于提升散热效果。其交货套板尺寸为85mm* 210mm,但板厚仅有1.0mm,最小线宽/线隙为2.5mil/2.5mil。如下图所示,传统的光模块作为易损部件,出于便于维修考虑采用热插拔的形式,但热插拔形式下,光模块光引擎距离交换芯片很远,电信号在PCB中走线很长,在高速尤其是800G光模块等场景下,PCB走线过长造成信号劣化,形成传输瓶颈。由于网络设备传输速率带宽持续增加,传输系统对传输链路的损耗要求越来越严,为了尽可能地降低网络设备的自身工作功耗以及散热功耗,NPO/CPO技术应运而生。CPO(Co-packaged optics),也即是共封装光学,即将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。NPO(Near packaged optics),也即是近封装光学,是将光引擎与交换芯片分开,装配在同一块PCB基板上。显而易见,NPO是过渡阶段,更容易实现,也更具开放性,但CPO是终极形态。CPO技术可以实现高速光模块的小型化和微型化,可以减小芯片封装面积,从而提高系统的集成度。CPO将实现从CPU和GPU到各种设备的直接连接,从而实现资源池化和内存分解,还可以减少光器件和电路板之间的连接长度,从而降低信号传输损耗和功耗,提高通信速度和质量。NPO/CPO背后底层是基于硅光技术。硅光,是以光子和电子为信息载体的硅基光电子大规模集成技术,也即是把多种光器件集成在一个硅基衬底上,变成集成“光”路,构成了微型光学系统。从直接的结果来看,NPO、CPO与传统的可插拔模式相比,因光引擎嵌入交换机内部,光模块处PCB减少,直观上会利空光模块PCB生产企业。CPO短期受供应链多因素制约,难以大规模应用,对传统光模块PCB企业影响有限。CPO技术路径通过减少能量转换的步骤,在相同数据传输速率下可以比传统热插拔光模块减少约50%的功耗,将有效解决高速高密度互连传输场景下,电互连受能耗限制难以大幅提升数据传输能力的问题。此外,相较传以II-V材料为基础的光技术,CPO主要采用硅光技术具备的成本、尺寸等优势,为CPO技术路径的成功应用提供了技术保障。然而,CPO短期也有许多亟待解决的关键技术,如何选择光引擎的调制方案、如何进行架构光引擎内部器件间的封装以及如何实现量产可行的高耦合效率光源耦合。由于目前的技术与产业链尚不成熟等原因,CPO短期内难以大规模应用。其次,CPO的技术路线在逐步推进的过程中本需要数据中心整体产业链的协同推进,其中涉及到的环节在现有光模块产业链的基础上预计还需要得到交换芯片及设备厂商,以及各元器件厂商的合作。根据产业链调研,现阶段不少光模块PCB企业也在参与光模块企业硅光相关的产品的合作预研。我们认为即使后续CPO方案之间渗透,光模块PCB企业仍有望在产业链升级的对应环节受益。高速光模块PCB玩家将呈马太效应。光模块PCB产品具有信号传输速率高,线路密度窄、散热要求高等特点,在光模块持续向1.6T/3.2T升级过程,PCB工艺难度加速提升(mSAP工艺),具有极高的壁垒,能够参与的厂商会逐渐变少,马太效应会逐渐显现。此外,在商业模式端,光模块厂商可以选择板厂,光模块企业市场格局相对集中,因此前期持续深耕头部光模块企业有望持续受益客户端产品的升级。风险提示:
1、未来中美贸易摩擦可能进一步加剧,存在美国政府将继续加征关税、设置进口限制条件或其他贸易壁垒风险;2、AI上游基础设施投入了大量资金做研发和建设,端侧尚未有杀手级应用和刚性需求出现,存在AI应用不及预期风险;3、宏观环境的不利因素将可能使得全球经济增速放缓,居民收入、购买力及消费意愿将受到影响,存在下游需求不及预期风险;4、大宗商品价格仍未企稳,不排除继续上涨的可能,存在原材料成本提高的风险;5、全球政治局势复杂,主要经济体争端激化,国际贸易环境不确定性增大,可能使得全球经济增速放缓,从而影响市场需求结构,存在国际政治经济形势风险。
证券研究报告名称:《电子行业2025年投资策略展望:AI端侧应用兴起,国产高端芯片亟需国产化》
对外发布时间:2024年11月25日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
刘双锋 SAC 编号:S1440520070002
庞佳军 SAC 编号:S1440524110001
范彬泰 SAC 编号:S1440521120001
孙芳芳 SAC 编号:S1440520060001
乔磊 SAC 编号:S1440522030002
章合坤 SAC 编号:S1440522050001
郭彦辉 SAC 编号:S1440520070009
王定润 SAC 编号:S1440524060005
何昱灵 SAC 编号:S1440524080001
AI商业化价值逐步凸显,算力需求助推产业加速向上
算力需求持续高增,国产算力产业有望加速发展
全球AI市场规模持续增长,国内大模型算力需求近百亿美元
AI时代算力领域投资规模快速扩张。2022年底ChatGPT引爆AI浪潮,海内外云厂商积极投身AGI能力建设,大幅提升资本开支用于AI算力基础设施采购。根据弗若斯特沙利文《2024中国智能算力行业白皮书》,2023年全球人工智能市场总投资额达到1835亿美元,同比增长38.5%;中国人工智能市场2023年总投资额突破190亿美元,占全球总量10.5%,2019-2023年复合增速达到43.4%。
市场规模方面,全球2023年生成式人工智能整体规模约675亿美元,同比高增约70%,其中硬件贡献近90%;展望未来,生成式人工智能市场有望快速发展,软件及应用服务端占比将有所提升,但硬件端仍占据较大份额,预计2028年全球生成式人工智能市场规模有望达到5160亿美元,5年复合增速超50%。
通用人工智能加速发展,大模型持续迭代带动巨量算力建设需求。根据OpenAI、LLaMA等海外头部大模型厂商公开的模型训练相关数据,可以发现随着模型的迭代升级,Scaling Law持续得到印证,算力消耗快速增长,对于算力卡的消耗以及单次训练时长均有所提升。
我国大模型训练及推理算力潜在需求接近百亿美元。训练端,根据国家数据局局长公开发言,我国10亿参数量以上的模型数量已超100个,头部厂商如阿里、华为等开发出了具备多模态能力的万亿级参数模型,其余中小厂商大模型体量也多在千亿级别。我们分别计算多模态类大模型以及普通大模型训练端潜在需求,其中多模态大模型假设参数量及Tokens数量均为1万亿个,单次训练周期30天;普通大模型参数量及Tokens数量分别为1000亿、2000亿个,单词训练周期20天。以H100算力芯片测算整体需求,根据OpenAI、谷歌发表的相关论文,假设算力效率由45%逐步提升,最终测算可得2025年我国大模型相关的训练端算力需求约为等效14.7万张H100芯片,若按单卡价格3.5万美元估算,对应市场规模约为51.6亿美元。
基于训练侧的部分假设,推理端需求将随着大模型能力持续迭代以及用户数量增长而提升。若多模态大模型及普通大模型日活用户均参考每日查询10次,单次查询消耗1000个Tokens,同时考虑推理端需求相对集中,最终测算可得2025年我国大模型相关的推理端算力需求约为等效11.0万张H100芯片,若按单卡价格3.5万美元估算,对应市场规模约为38.4亿美元,与训练端合并计算市场规模接近百亿美元。
受益国内外双重驱动,国内算力需求持续爆发
(1)政策推动国内算力建设加速发展,运营商加大采购力度
顶层政策推动智能算力建设加速。2023年工信部联合六部委印发了《算力基础设施高质量发展行动计划》,要求到2025年全国算力规模超过300EFLOPS,其中智能算力占比要求达到35%,实现东西部算力平衡协调发展。根据具体指标推算,2023-2025年新增算力规模80EFLOPS,其中智能算力规模50EFLOPS。今年以来,国家级、地方级智能算力基础设施相关促进政策频出,国资委于2月召开“AI赋能产业焕新”央企AI专题推进会,要求央企发挥带头作用,加快建设一批智能算力中心,发挥跨央企协同创新平台作用,更好促进人工智能产业发展。地方层面,北京、上海、广东等二十余个省份今年发布了智能算力建设相应规划,分阶段提出智算算力建设规模要求,北京、江苏、福建等地还推出了“算力券”、创新奖励等资金补贴支持政策,吸引企业投资建设AI算力,促进产业发展。
三大运营商持续推进智算领域投资,AI服务器采购数量及国产化比例均提升。继今年4月中国移动落地约8000台基于昇腾芯片的AI服务器、中国联通落地约2500台基于昇腾芯片的AI服务器后,近期中国电信在其官方采购网站上公布了2024-2025服务器集采中标结果。根据公告,电信本次合计采购约15.6万台服务器,其中AI服务器数量合计约1.31万台,国产化比例52.1%;整体国产化比例达到67.5%。电信此次AI服务器采购台数超过去年10月约4200台的AI服务器集采,也超过了移动此前的8000台以及联通的约2500台,成为目前为止运营商最大规模的AI服务器集采。国产化比例方面,以中国电信为例,其2020年起开始单独将国产化服务器列入招标目录,当年国产化比例约为20%,2021-2024年国产化比例逐年提升,分别约为26.7%、27%、47%、67.5%。
运营商智算中心建设加速落地,支持AI大模型训练推理。近期,运营商投资建设智算中心项目陆续开工或投入使用,包括移动算力中心北京节点(智算规模超1000P)、联通上海临港智算中心(首个全液冷国产超万卡智算集群,机架数1.5万)、电信长三角(芜湖)智算中心(超8万个标准机柜服务能力)等,运营商智算能力布局持续深化。
(2)海外技术封锁&国内产品性能追赶共同助力算力国产化
海外AI技术封锁趋严,国产算力发展迫在眉睫。当前,国际形势复杂,美国对其高端芯片出口限制趋严,2022年10月发布的相关条例使得A100、H100芯片受到出口管制。此后,英伟达基于美政府条例限制推出中国特供版芯片A800、H800,但在2023年10月美政府发布新限制条例,进一步压低算力密度及性能标准。目前英伟达满足美政府限制要求的最新中国特供版GPU为H20,其相比H100性能仅有约两成,单卡算力能力低于部分国产算力芯片。随着美国新一届总统大选结果出炉,特朗普预计将于明年一月就任新一届美国总统,参考其此前任期政策主张,在对华政策方面相对激进,预计将对人工智能产业包含芯片设计制造、软件模型等采取更严格限制措施。当前各国在AI领域加大投入力度,算力作为AI重要基础设施,其国产化进程迫在眉睫。
国产算力芯片性能快速追赶,生态逐步完善。虽然全球AI芯片市场几乎由英伟达所垄断,但国内厂商基于自身科研能力,也涌现出包括华为、海光信息、寒武纪、壁仞科技、摩尔线程等AI算力芯片企业。国产芯片性能紧追海外厂商,生态搭建逐步完善,有望受益于国内算力市场增量需求迎来较快发展。
1)华为昇腾
华为昇腾系列AI处理器于2019年发布,包含昇腾910、昇腾310以及昇思MindSpore全场景AI框架,并形成Atlas人工智能计算解决方案,包含模块、板卡、智能小站、服务器、集群等丰富的产品形态,实现端侧、边缘侧、云侧全场景覆盖,且同时支持训练及推理负载。此外,华为联合产业生态,构建华为计算生态体系,与国内头部服务器整机厂商展开合作,由合作伙伴基于华为AI芯片推出其自主品牌的服务器产品,为客户提供更多选择,华为计算合作伙伴目前在政府智算中心、运营商服务器集采中表现优异,市场份额领先。
2)海光信息
海光信息DCU产品兼容“类CUDA”环境,CUDA为英伟达推出的通用并行计算架构,包含相关指令集及并行计算引擎等,海光DCU兼容AMD的ROCm计算生态,CUDA与ROCm生态具备高度相似性,因此海光DCU在产品推广中能够更好的和各类软件实现较好生态兼容。海光DCU产品“深算系列”初代产品深算一号于2021年商业化应用,深算二号及其AI版性能提升显著,AI版对FP16及INT8算力能力进行提升,市场反响积极。目前最新款DCU深算三号研发进展顺利,预计将于近期推出,有望受益于国内强劲算力建设需求。
3)寒武纪
寒武纪具备先进制程下复杂芯片设计经验,芯片产品覆盖“端-边-云”侧,公司思元系列芯片主要应用于人工智能计算领域,自2018年发布思元100系列以来,公司持续推进芯片迭代,陆续推出了思元200系列(MLU220、MLU270、MLU290)、思元300系列(MLU370),MLU370是寒武纪首款采用Chiplet技术的AI芯片,算力、带宽较前代产品实现翻倍以上提升,与国内互联网厂商开展了相应适配合作。据公司微信公众号,全新一代云端AI训练芯片思元590采用MLUarch05全新架构,实测训练性能较在售产品有了显著提升,它提供了更大的内存容量和更高的内存带宽,其PCIE接口也较上代实现了升级,预计将更好满足互联网等客户需求。
风险提示:
(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;
(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;
(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;
(4)国际环境变化影响:目前国际形势动荡,对于海外收入占比较高公司可能形成影响,此外美国不断对中国科技施压,导致供应链安全风险。
证券研究报告名称:《2025年计算机年度策略:百炼成金(更新)》
对外发布时间:2024年11月26日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
应瑛 SAC 编号:S1440521100010
王嘉昊 SAC 编号:S1440524030002