上周,Marvell搞了一场分析师见面会,主要谈的就是AI。Marvell高级副总裁兼投关总监牵头,邀请了公司董事会主席兼CEO以及四个部门( Cloud Optics、 Connectivity、Network Switching、 Products and Technology)负责人出来交流。
CEO和四个部门负责人共5人,每人都做了一场主题演讲,后面分析师提问。
整场会议内容非常饱满丰富,信息量极大
,我
单看会议纪要都花了整整一个上午三个小时
时间。
说实话,一般的人哪怕是非常专业人士,看下来也是很累的。为了更好的帮助我的读者能了解到关键信息,我
咀嚼过之后把一些关键点给highlight
出来,希望
帮助各位发现未来的投资机会
。
先看一下2023年数据中心市场规模:
-
2023年数据中心的
总资本支出约为2600亿美元
。其中一些是在建筑和基础配套设施中。因此,
硬件设备大约1970亿美元
,其中
半导体这块支出规模约为1200亿美元
;
-
将 1200 亿美元进一步细分为核心半导体(不包括模拟和存储器),去年
核心半导体数据中心支出约为 820 亿美元
。也就是说
模拟和存储这块大约380亿美元
;
-
820 亿美元进一步细分为 :
计算半导体为最大的部分,为680亿美元
;
互联半导体40亿美元
;
交换半导体60亿美元
;
存储控制半导体40亿美
元。
-
680亿的计算半导体部分:
420亿美元为加速计算
;
260亿为通用控制计算
。
以上是数据中心半导体现状分布。
我们再来看看对未来的预测(2023-2028年5年预测):
-
计算相关半导体从2023年的680亿美元增长至2028年的2020亿美元,
年均复合增速为24%
;
-
其中
加速计算半导体
从2023年的420亿美元增长至2028年的1720亿美元,
年复合增速为32%
;(你可以理解为GPU、XPU这些)
-
其中定制加速计算ASIC在2023年约66亿美元,份额占比加速计算16%;
-
预计2028年定制加速计算ASIC份额达到25%,即429亿美元;
-
预计
定制加速计算ASIC未来5年复合增长率为45%
,比加速计算总体复合增速32%要高10个多点。
-
需要注意的是加速计算部分也仅25%为定制ASIC即XPU(博通和marvell等),75%的大部分依然还是英伟达和AMD的GPU。
-
其中通用控制计算半导体从2023年的260亿美元增长至2028年的300亿美元,年复合增速为4%;(你可以理解为CPU)
marvell把其涉足的半导体部分(不包含GPU)按照结构分类,未来5年的复合增速总体情况如下图:
我们可以看到:
-
未来5年
加速计算半导体的复合增速最快,达到45%
;而且
规模也最大,到2028年达到429亿美元
;
-
未来5年
互联半导体的年复合增速处于第二位,达到27%
;规模在2028年达到139亿美元;
-
未来5年
交换半导体的年复合增速为15%
,2028年这块规模达到120亿美元;
-
未来5年的存储控制半导体年复合增速为7%,增速较低,不过比通用服务器CPU的4%还是要高一点。
站在Marvell自身来看,他们的目标是把市场份额从2023年的10%做到2028年的20%。为了达到这个目标,需要在互联和存储这块份额保持的条件下,扩大定制计算asic和交换芯片的市场份额。
互联是Marvell的核心技能,也是
AI从起步发展到今天最大的变数
。
因为AI的出现,
互联迭代出现了加速趋势
,包括速率和数量:
-
过去4年互联速率翻一倍,现在已经出现每2年翻一倍,
典型迭代加速;
-
AI训练是大集群,但是用量不多;未来AI推理会是小集群,但是数量会很多;
-
AI数据中心未来几年全球要投入2万亿美元,建6000个数据中心点。
-
短距离内是用铜
,协议是NVlink、PCIe、InfiniBand,所以只要看到
是NVlink那就是用铜缆链接的
。如上图:
-
AI集群内部,即
后端网络,采取infiniband或者超以太网协议,用铜缆或者光纤;
-
前端网络(看到CPU的地方)采用以太网协议,采用光纤方式传输
-
在AI训练方面的光模块数量发展趋势
-
2023年GPT-3 在 1000个GPU集群上使用大约 2,000 个光互连进行了训练。
-
2024年GPT-4 在 2.5万个GPU 集群上进行训练,GPU量扩大了 25 倍;同时需要大约 75,000 个光互连,光互连扩大了37倍
-
公司看到 十万卡集群很快推出,需要五层交换,需要 500,000 个光互连
-
正在谈论的一百万卡集群,可能需要 100 万个光互连。
在连接技术方面,不同网络层次使用的技术不相同:
-
数据中心内部,包括前端网路和后端网络,
连接距离不超过2公里,采用PAM调制方式
;
-
数据中心之间,距离一般较长,
几百公里甚至数千公里,使用相干调制;
-
光模块构成:DSP、TIA(跨阻放大器)、激光驱动器、激光发射器、激光检测器。其中marvell做的是电相关的DSP、TIA、激光驱动器。
-
大模型不单需要大集群AI训练更需要花费数月时间,如果
其中一个链接故障会影响整个训练崩溃
;
-
DSP在这里面很关键,可以起到智能、诊断、遥测、系统级智能、检查链路的质量等功能;
-
TIA和激光驱动器,因为是
高频模拟电路,所以要用锗硅BiCMOS工艺
来生产;
-
包括传统数据和AI服务器,
3到4米的距离内,还是使用铜,要么电路板要么用铜缆