我们正见证着一个全新计算时代的崛起。
未来十年内,规模超万亿美元的数据中心业务将迎来转型,推动这一变革的核心力量是极端并行计算(EPC),也称为加速计算。在本文中,我们将探讨加速计算如何重塑技术格局、主要半导体厂商的发展态势、英伟达面临的竞争及其护城河的深度。
研究表明,为应对AI工作负载和加速计算的特殊需求,整个技术堆栈(从计算、存储、网络到软件层)都将经历重构。其中,传统x86通用CPU架构向GPU集群和专用加速器的转型速度远超市场预期。接下来是对数据中心技术堆栈各层的简要评估,以及加速计算带来的影响。
计算
三十多年来,x86 架构一直主导着计算领域。如今,通用处理正逐渐让位于专用加速器。GPU 是这一变革的核心。诸如大语言模型、自然语言处理、高级分析和实时推理等 AI 工作负载,都需要大规模的并行处理能力。
-
极度并行性:
传统的多核扩展已面临收益递减的问题。相比之下,单个 GPU 可以包含数千个核心。即便从封装层面看 GPU 成本较高,但鉴于其大规模并行设计,按单位计算能力衡量,其成本可能要低得多。
-
大规模 AI:
高度并行的处理器需要先进的系统设计。大型 GPU 集群共享高带宽内存(HBM),并需要高速互连(如 InfiniBand 或超高速以太网)。GPU、高速网络和专用软件之间的这种协同作用,催生了新型的工作负载。
存储
虽然在 AI 相关讨论中,存储有时会被忽略,但数据是驱动神经网络的燃料,AI 需要先进的高性能存储解决方案:
-
预期性数据存储:
下一代数据系统能够预测模型将请求哪些数据,确保数据提前存储在处理器附近,以尽可能减少延迟并突破物理限制。
-
分布式文件和对象存储:
PB 级别的存储容量将成为标配,通过元数据驱动的智能来协调跨节点的数据放置。
-
性能层:
NVMe SSD、全闪存阵列和高吞吐量数据结构,对于确保 GPU 和加速器始终有数据可用起着重要作用。
网络
过去十年,随着移动和云计算的发展,网络流量从南北向(用户到数据中心)逐渐转向东西向(服务器到服务器)。AI驱动的工作负载导致数据中心和网络内产生了大量东西向和南北向流量。在 HPC 领域,InfiniBand 成为超低延迟互连的首选。如今,这一趋势正渗透到超大规模数据中心,高性能以太网成为主流标准:
软件堆栈和工具
操作系统和系统级软件
加速计算对操作系统、中间件、库、编译器和应用程序框架提出了巨大的要求,这些组件正在快速发展,以支持超并行工作负载,并具备利用 GPU 的能力(即支持 GPU 感知的操作系统)。
数据层和应用层
数据是AI的燃料,数据堆栈正在迅速融入智能技术。数据层正从传统的分析系统,转变为实时引擎,以支持创建组织的实时数字表征。此外,智能应用程序不断涌现,它们能够统一和协调数据。这些应用程序越来越多地能够实时访问业务逻辑和流程知识。
上图显示了主要半导体公司五年来的股票表现,其中 “AI 区域” 自 2022 年末开始以阴影标注,这一时间大致与 ChatGPT 最初引发热议的时间相吻合。
Nvidia:
在AI热潮中脱颖而出,曾一路飙升成为全球市值最高的上市公司。
博通:
博通是芯片领域中极具潜力的参与者,尤其在数据中心基础设施方面表现突出。该公司为谷歌、Meta和字节等云巨头提供定制 ASIC 和下一代网络所需的关键 IP。
AMD:
在 x86 市场上,AMD 击败了英特尔,但该细分市场正在衰退,因此 AMD 正加速进军AI领域。AMD 试图复制其在 x86 市场的成功策略,只不过这次的竞争对手是Nvidia的 GPU。如果Nvidia不出现重大失误,AMD 要削弱其竞争壁垒和软件堆栈并非易事。
英特尔:
英特尔的代工战略仍是一大阻力。由于资本限制不断增加,其代工业务量不足以赶上台积电。有分析认为,英特尔今年将被迫剥离其代工业务,专注于其设计业务,使公司再次释放创新活力,成为AI领域的有力竞争者。
高通:
主要专注于移动、边缘计算和以设备为中心的人工智能。虽然在数据中心领域对Nvidia不构成直接威胁,但其未来向机器人和分布式边缘人工智能领域的扩张,可能会使其与Nvidia偶尔产生竞争。
市场已经认识到半导体是未来 AI 能力的基础,因此对能够满足加速计算需求的公司给予了较高的估值倍数。
Nvidia 65%的营业利润率吸引了大量投资者和竞争者涌入AI芯片市场。无论是老牌企业还是新进入者,都有着不同的竞争策略。然而,市场潜力巨大,且Nvidia的领先优势十分显著,短期内的竞争不会对其造成损害。
博通和谷歌
这两家公司放在一起是因为:1) 博通为谷歌的TPU等定制芯片提供支持;2) TPU v4 在 AI 领域极具竞争力。博通在 SerDes、光学和网络方面的 IP 是同类最佳的,博通与谷歌联手,是相对于英伟达而言最具可行性的技术替代方案。
一种可能性较小的情况是,谷歌最终可能会地将 TPU 商业化,从纯粹的内部解决方案转变为面向更广泛市场的产品。但在短期内,围绕谷歌 TPU 的生态系统仍局限于内部,目前是一个封闭市场,仅适用于谷歌内部的应用场景。
博通和 Meta
博通还与 Meta 建立了长期合作关系,并为其 AI 芯片提供支持。谷歌和 Meta 都已证明,在消费者广告领域对 AI 的投资能够带来回报。
谷歌和 Meta 都倾向于采用以太网作为网络标准。博通是以太网的坚定支持者,也是超以太网联盟的领军人物。此外,博通是除 Nvidia 之外唯一一家在跨 XPU 及 XPU 集群内部网络方面拥有成熟专业技术的公司,这使其在 AI 芯片领域成为极为强劲的竞争对手。
AMD
AMD 的数据中心战略依赖于推出具有竞争力的 AI 加速器,这一战略建立在该公司在 x86 领域的过往成绩之上。尽管 AMD 在游戏和高性能计算领域拥有一定的 GPU 业务,但以 CUDA 为核心的AI软件生态系统仍然是一个关键障碍。
一些人认为 AMD 将在 AI 领域占据可观的市场份额,至少足以维持营收增长。另一些人则预计其增长幅度有限,因为 AMD 不仅要在硬件上与 Nvidia 匹敌,还需在软件堆栈、系统专业知识以及开发者忠诚度方面与之竞争。
AMD 在 AI 领域采取了积极的举措。它正与英特尔合作,试图维持 x86 架构的市场活力。它收购了 ZT Systems,以更好地理解端到端 AI 系统的需求。最终,AMD 将在这个庞大的市场中占据相对较小的份额。它将通过从英特尔手中夺取市场份额来应对 x86 市场的下滑,并与 Nvidia 争夺成本敏感的 AI 芯片市场。
英特尔
英特尔曾是处理器领域无可争议的领导者,但在向加速计算转变的过程中,其命运发生了转变。英特尔将继续受到维持自有代工业务所需巨额资金的制约。
垂直整合与规模:对于苹果、Nvidia、甲骨文和特斯拉等将硬件和软件整合在单一系统中的企业来说,垂直整合可能具有优势。但就英特尔而言,代工业务正在消耗其关键资源并分散管理层的注意力。如果英特尔今年不剥离代工业务,可能会面临更大的损失。
业内人士认为,英特尔应剥离代工业务,专注于设计和合作,就像 AMD 剥离晶圆厂业务一样。另一种情况是,英特尔继续投资,最终重新获得制程领先地位并展开正面竞争。然而,这种结果发生的概率极低(低于 5%)。
AWS 和 Marvell
AWS的定制芯片策略在 CPU 实例的 Graviton 上取得了成功。其对 Annapurna Labs 的收购是企业科技史上最成功的投资之一。如今,AWS 与 Marvell 合作,正将类似 Graviton 的策略应用于 GPU,推出了用于训练的 Trainium 和用于推理的 Inferentia。
AWS 的产品将经过成本优化,在 AWS 生态系统内为训练和推理提供另一种 GPU 解决方案。尽管开发人员最终可能更青睐 Nvidia 平台,但 AWS 会尽可能为客户提供更多可行选择,并在其专属市场中获得相当份额。其市场渗透率可能不如 Graviton 相对于商业 x86 芯片那么高,但也会有足够的采用量来证明投资的合理性。
某些不需要 Nvidia 高级功能的工作负载,可能会转向成本较低的 AWS 芯片。但Nvidia 堆栈仍将是复杂、大规模部署和开发人员便利的首选。
研究表明,AWS 多年来一直致力于构建自己的 AI 基础设施,以减少对 Nvidia 全栈的依赖。与许多需要 Nvidia 端到端系统的公司不同,AWS 不仅可以为客户提供这样的解决方案,还可以提供自己的网络和支持软件基础设施,从而进一步降低客户成本,同时提高自己的利润率。
微软
微软在定制芯片方面一直落后于 AWS 和谷歌,不过它也有一些正在进行的项目,例如 Maia。微软可以利用其软件优势以及愿意为Nvidia高端 GPU 支付所要求的利润率,来弥补芯片方面的差距。
新兴厂商
Cerebras 、SambaNova 、Tenstorrent 和 Graphcore等公司已经推出了专门的 AI 架构。国内也在自主研发GPU 或类似 GPU 的加速器。然而,软件兼容性、开发者支持力度以及打破现有事实的行业标准需要付出的巨大努力。
Nvidia 的竞争优势在于其横跨硬件和软件的多维度护城河,经过近二十年的系统性创新,Nvidia 打造出了一个既广泛又深入的集成生态系统。
硬件集成和“运送一整头牛”战略
Nvidia 的 GPU 采用了先进的工艺节点,集成了高带宽内存,并配备专用张量核心,可大幅提高 AI 性能。值得注意的是,Nvidia 每 12 到 18 个月就能推出一款新的 GPU 迭代产品。同时,它采用“运送一整头牛”战略,强调通过最大化资源使用来提高盈利能力,确保每个可用的芯片裸片在其产品组合(数据中心、PC GPU 或汽车)中都有一席之地。这可以保持高产量和良好的利润率。
网络优势
Nvidia 对 Mellanox 的收购,使其掌控了 InfiniBand 技术,从而能够为AI集群销售完整的端到端系统,并迅速推向市场。ConnectX 和 BlueField 数据处理单元(DPU)的整合,进一步巩固了 Nvidia 在超高速网络领域的领先地位,而超高速网络是多 GPU 扩展的关键组成部分。随着行业向超以太网标准迈进,许多人认为这对 Nvidia 的护城河构成了威胁,但Nvidia能够且将会根据市场需求成功优化其以太网堆栈,保持核心优势。
软件集成和生态系统
Nvidia 的软件生态系统已经远远超越了 CUDA,几乎涵盖了 AI 应用开发每个阶段所需的框架。此外,Nvidia 首席执行官黄仁勋经常强调公司对建立合作伙伴网络的重视。几乎每一家大型科技供应商和云服务提供商都提供基于Nvidia产品的实例或解决方案。这种广泛的业务覆盖产生了显著的网络效应,进一步巩固了其护城河。
下面是2019 年至 2035 年的整个数据中心市场趋势模拟,包括服务器、存储、网络、电源、冷却和相关基础设施。研究表明,数据中心将快速从传统的通用计算向加速计算转变。
预计到 2032 年,数据中心市场总额将超过 1 万亿美元 ,到 2035 年将扩大到 1.7 万亿美元。从 2024 年起,基础模型显示,整体复合年增长率为15%。
我们将“加速计算”归类为用于AI训练、推理、HPC 集群和高级分析的专用硬件和软件。2020 年,加速计算约占数据中心支出的 8%。预计到 2030 年,这一比例将超过 50%。到 2030 年代中期,先进的加速器可能会占据数据中心芯片投资的绝大部分(80% - 90%)。
目前,Nvidia 在整个数据中心领域约占 25%。
在AI的推动下,一个规模超万亿美元的新市场正在兴起。我们所熟知的数据中心,将转变为分布式并行处理架构,其中 GPU 和专用加速器将成为标配。超大规模云服务提供商、半导体厂商以及初创公司,在这个快速扩张的市场中都有着各自的角色。各方力量相互交织、协同发展,共同推动着这个新兴市场不断迈向新的高度。
原文链接:
https://siliconangle.com/2025/01/11/nvidia-creating-1-4t-data-center-market-decade-ai/