专栏名称: SDNLAB
SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台,涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域,提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。
目录
相关文章推荐
51好读  ›  专栏  ›  SDNLAB

数据中心网络:从Scale Up到Scale Out再到Scale Outside

SDNLAB  · 公众号  ·  · 2025-03-11 16:00

正文

图片

*本文翻译自AvidThink LLC的研究报告, 文末附下载

2024年,数据中心网络格局在生成式人工智能工作负载的推动下经历快速变革。从最初备受瞩目的ChatGPT到Gemini、Grok,再到国内的DeepSeek、豆包和通义千问等,AI大模型发展态势迅猛,市场对于AI专用数据中心算力的需求达到了前所未有的高度。各方纷纷加大投资力度,以顺应这一趋势:

  • 微软计划在2025年斥资800亿美元建设数据中心,主要用于AI领域。
  • Meta投入 600 亿至 650 亿美元,主要用于数据中心和服务器方面,较 2024 年增长 60% 至 70%。
  • AWS承诺投入 110 亿美元用于支持AI和云技术的基础设施,还发起了Rainier项目,旨在建立一个包含数十万个Trainium芯片的超级集群,以服务于如Anthropic这样的客户。

这些巨额投资从根本上重塑了传统的数据中心网络架构,AI 训练和推理的需求将网络推向了新的性能极限。行业正在对Scale Up和Scale Out 网络解决方案进行创新以 应对这一挑战

在芯片层面,博通和Marvell等公司提供了支持这些连接的基础技术。在机架内部,NVIDIA的NVLink等专有互连协议与诸如 UALink 等新兴开放标准展开竞争,而在Scale Out层面,InfiniBand和以太网解决方案都在不断演进以满足AI工作负载需求。UEC开发的UET协议标志着行业向开放标准发展的强劲势头。

此外,一种关键的架构转变正在出现:AI计算的基本单元正从单个服务器转向集成的机架级系统,NVIDIA的GB200 NVL72平台和AWS的Trainium2 UltraServer就是例证。网络供应商格局也在迅速变化,厂商竞相开发针对AI工作负载优化的新架构。


数据中心网络关键技术

Scale Up网络

芯片间通信: UCIe 和Chiplet

开放计算项目(OCP)通过其开放领域特定架构(ODSA)持续推动一个开放的 小芯片 Chiplet )生态系统。随着GPU和AI加速器的竞争加剧,以及芯片发布周期从18到24个月缩短至12个月,小芯片的上市时间优势对于AI SoC变得更具吸引力。


UCIe是一种开放的行业标准,定义了封装内小芯片之间的互连方式,从而实现系统级芯片设计的模块化方法。与专注于主板上处理器到设备连接的CXL不同,UCIe专注于单一封装内的芯片间通信。该标准得到了包括AMD、Arm、Intel、高通、三星和台积电等公司的支持,表明业界广泛支持创建一个开放的小芯片生态系统。

UCIe的关键特性使其能够在保持高性能的同时混合和匹配不同供应商的芯片组,这些特性包括:

  • 支持每引脚高达32 Gbps的数据速率
  • 兼容标准和先进封装技术
  • 可利用现有的PCIe和CXL协议
  • 专用于芯片间适配和物理连接的专用层

PCIe

基于标准的PCIe在满足AI系统需求方面取得了显著进展。PCIe 6.0现在支持16通道下高达256 GBps带宽,而PCIe 7.0在其2025年1月发布的0.7版规范中,目标是实现惊人的512 GBps带宽。PCIe的主要优势仍然是其基于标准的方法,能够在多样化的芯片生态系统中实现互操作性。

然而,这种演变也伴随着挑战。随着 PCIe 不断更新换代,PCIe 的最大传输距离在逐渐缩短。为了解决这一限制,像Marvell等供应商提供的PCIe重定时器变得至关重要,它们用于扩展传输距离,并实现在服务器上CPU、GPU和I/O设备之间的连接。

CXL

Compute Express Link(CXL)作为一种前瞻性的开放标准,适用于xPU服务器集群和节点内的细粒度连接。基于在 PCIe 5.0/6.0 标准,CXL增加了内核一致性功能,允许xPU共享具有状态同步的公共内存池。

CXL架构基于三个基本协议构建:

  • CXL.io 是基础协议,负责处理设备初始化、发现以及基本I/O操作。
  • CXL.cache 通过超低延迟请求响应机制,实现主机和设备内存之间的缓存一致性通信。
  • CXL.mem 允许主机处理器通过加载 / 存储命令直接访问设备内存,同时支持易失性内存和持久性内存。

PCIe交换机和CXL在促进可组合计算机架构方面(如共享内存池、共享存储、可重构架构)显示出了巨大潜力。然而,随着对大规模AI训练集群的关注增加,CXL的应用主要局限在共享内存访问上,厂商们更多地押注于诸如UALink(用于xPU到xPU链接)等替代方案。

NVIDIA NVLink

NVLink 于 2014 年初发布,是由NVIDIA开发的一种高速、低延迟的专有连接技术,旨在作为 PCIe的替代解决方案。

2024 年,NVLink 的性能取得了重大进展。第五代NVLink将其前一代产品的900 GBps吞吐量翻倍至每GPU 1.8 TBps。NVIDIA还推出了NVLink Switch,这是一种突破性的架构,能够在多达576个GPU之间实现每对GPU之间的双向全速连接。

UALink

UALink代表了业界在高速、低延迟芯片间互连标准方面的重要推动,特别适用于AI和HPC加速器。该联盟成立于2024年5月,吸引了包括AMD、Intel、谷歌、思科和博通等主要行业参与者。为了加速开发,AMD贡献了其Infinity Fabric共享内存协议和GPU到GPU接口xGMI给UALink项目,联盟成员同意将Infinity Fabric作为加速器互连的标准协议。

UALink在架构上提供了几个关键优势,包括:

  • 可扩展性,支持单个AI集群中多达1024个加速器
  • 具备竞争性的高带宽和低延迟性能
  • 能源效率提高了40%
  • 支持AI训练和推理解决方案

据传 多家半导体公司正在开发Ultra Accelerator Link交换机。与此同时,Synopsys宣布了首个UALink IP解决方案,提供每通道200 Gbps的吞吐量,并支持连接多达1024个加速器。该解决方案计划于2025年下半年推出。

与UALink相比,NVIDIA NVLink在成熟度和部署经验方面仍存在一些优势。NVIDIA首席执行官黄仁勋指出,到UALink实现商业采用时,NVLink可能已经进步到了更高的性能水平。


Scale Out 网络

如今,许多AI网络采用了一种分离架构,具有独立的前端和后端网络。前端网络使用简单的100/200 Gbps以太网,采用二到三层标准的 Clos 拓扑结构,将xPU集群连接到应用和存储设备等外部系统。后端网络则以更高的速度(400/800 Gbps)运行,支持AI训练或计算任务期间所需的密集数据传输。

无论是InfiniBand还是以太网,后端网络都依赖于RDMA协议进行性能优化。RDMA使GPU节点能够在不涉及CPU的情况下读取和写入对方的内存。这种直接内存访问对于AI工作负载至关重要,因为它减少了延迟并降低了CPU开销。虽然RDMA最初是为InfiniBand网络开发的,但RoCE已经在各大厂商的产品中获得了广泛支持。

业内预计后端网络将显著增长。650 Group预测,RDMA相关的收入将从2023年的69亿美元增长到2028年的225亿美元。Dell'Oro预测,用于AI后端网络的数据中心交换机将在未来五年内推动近800亿美元的支出。

InfiniBand在需要高带宽和低延迟规格的HPC工作负载中占据主导地位,但由于以下原因,支持RoCEv2的以太网正势头渐盛,原因如下:

  • 成本更低(估计比InfiniBand便宜40-50%)
  • 网络工程师对此更熟悉
  • 广泛的工具和专业知识生态系统

一些重大的部署案例证明了以太网在AI工作负载方面日益增强的可行性:

  • Meta虽然拥有InfiniBand AI集群,但在训练其开源权重的Llama模型时使用了以太网交换集群。
  • xAI的Colossus超级计算机在其10万块GPU上采用了NVIDIA基于以太网的Spectrum-X架构。

随着部署的不断增多以及UEC的努力,可能会迅速缩小以太网与InfiniBand之间的差距。

InfiniBand

通过收购Mellanox,NVIDIA仍然是数据中心规模InfiniBand解决方案的主要提供商。InfiniBand已经在HPC环境中证明了自己,并确立了其作为AI训练高性能网络的地位。

2024年,InfiniBand标准取得了显著进步。InfiniBand行业协会(IBTA)于9月发布了第1卷规范1.8版,大幅增强了RDMA功能。该规范引入了XDR(扩展数据速率),将每通道的数据速度提升至约200 Gbps,同时通过支持XDR FEC(前向纠错)增强了传输可靠性。此外,它还扩展了对下一代接口的支持,包括4通道QSFP 800 Gbps和8通道QSFP-DD及OSFP 1600 Gbps。此外,该版本增强了数据密集型环境中RDMA网络的安全功能,改善了拥塞管理,并启用了最多256个端口的交换机,从而促进了更高基数交换机的发展。

以太网和RoCE

以太网在支持AI工作负载方面取得了显著进展。IBTA改进了RoCEv2与InfiniBand的互操作性,而OpenFabrics 联盟增强了其对RoCE的支持,进一步降低了延迟并提升了数据传输速度。结合Linux内核的增强,这些改进大幅提升了RoCEv2在Linux系统上的性能。

大多数用于AI训练的以太网结构都支持RoCEv2,并实现了额外的调度和负载均衡功能。各厂商之间的一个关键差异化因素是他们对智能拥塞控制的处理方法,以防止数据包丢失并减少延迟(包括尾部延迟)。不同厂商开发了多种策略来改进Scale Out架构:

  • 基于端点和通知的方法:专注于在拥塞发生后减轻其影响。这些系统使用优先级流控制(PFC),当接收节点达到某些队列深度阈值时,会向源节点发送消息以减缓传入的数据流。
  • 多路径方法:通过等价多路径(ECMP)采取预防措施,识别具有相同路由度量的目标路径,并使用哈希机制进行数据流负载均衡。

虽然DPU或SmartNIC可以强制执行这些策略,但它们仍然面临AI训练工作负载中常见的in-cast patterns的挑战。

  • 基于调度的解决方案:采用更全面的方法,通过从输入到输出端口的端到端流调度来预防拥塞。这些系统提供确定性的延迟和吞吐量,同时消除数据包丢失并减少抖动。一些厂商通过数据包喷洒技术进一步增强了这一点,该技术在数据包级别而不是流级别上分配流量,与传统的基于流的方法相比,提供了更精细的负载均衡。
  • 虚拟机箱方法:将多个交换机视为单个逻辑机箱的一部分,有助于在整个网络结构中进行协调。包括Arista、Arrcus和DriveNets在内的网络厂商已经实现了这样的架构,其中交换机相互连接以作为一个单一的逻辑交换机或路由器运行。这些解决方案采用集中式控制平面,确保所有网络节点的一致路由、调度和管理。它们设计为弹性扩展,并使用先进的调度和负载均衡技术来防止拥塞并优化利用率。

此外,还有其他技术和拓扑结构用于后端xPU网络。例如,麻省理工学院和Meta的研究人员提出了一种Rail-Only 网络,取消了Spine 交换机,利用节点内部的高带宽互连。他们的方法基于以下观察:基础模型(FM)训练流量稀疏且保持在“轨道”(即跨节点的相同等级的GPU)内。当出现非稀疏流量时,如在专家混合模型中,每个专家需要与其他模型部分通信,任何跨Rail的流量都会通过节点内部的高带宽互连(如NVLink)进行转发。这种创新架构展示了显著的效率提升,相比现有的先进技术解决方案,节省了38%至77%的成本和37%至75%的功耗。

UEC和UET

超级以太网联盟(UEC)是一项重要的行业倡议,旨在创建一种优化用于AI和HPC工作负载的开放以太网传输协议。自成立以来,该联盟迅速发展壮大,目前涵盖了来自多个领域的数百名成员,包括:

  • 半导体公司:NVIDIA、AMD、Intel、Broadcom
  • 网络设备提供商:Cisco、Arista、Juniper、Nokia
  • 系统制造商:Dell、华为、联想、HPE
  • 超大规模云服务提供商:Meta、微软、阿里、百度、腾讯


在2023年的白皮书中,UEC宣布了UET协议的开发,该协议旨在最终取代RoCE,成为AI和HPC工作负载的开放以太网传输协议。UET的设计目标全面,旨在解决现有协议中的局限性,并为未来的扩展挑战做好准备。

UET的关键技术目标包括:

  • 可扩展性:支持多达100万个连接端点。
  • 数据速度:实现高达1.6 Tbps的数据传输速率。
  • 嵌入式安全性:在传输层提供安全功能。
  • 最小化连接建立时间:减少连接建立所需的时间。
  • 降低连接状态开销:减少连接状态管理的资源消耗。

在2024年,UEC联盟取得了显著进展,截至2025年1月,正在完成1.0版规范的最终定稿。主要成员厂商正准备与规范发布同步推出支持UET的网络卡和交换机。该协议引入了几项创新特性,使其区别于现有解决方案:

  • 多路径能力:通过多路径提高可靠性和性能。
  • 先进的数据包喷洒技术:实现最优资源利用。
  • 灵活的交付顺序:消除数据包交付前重新排序的需求。
  • 基于遥测数据的实时自动拥塞控制:根据实时数据自动调整拥塞控制策略。
  • 内置安全功能:指定身份验证、授权和保密功能,而不影响性能。

Scale Out/Scale Outside:前端网络

前端网络采用传统的2/3层Clos以太网架构,但推理工作负载的增加正在推动新的需求。随着多模态推理的普及,AI集群的南北向流量增加,要求更高的数据传输速率(100-400 Gbps)以及更严格的端到端QoS要求。

安全已成为这些网络的关键问题。现代前端架构包含多层保护:

  • 动态数据加密
  • 最小特权/零信任框架
  • 基于角色的网络访问控制
  • 智能防火墙功能

IPv6分段路由(SRv6)已经成为提升前端网络性能的关键技术。SRv6将支持QoS优先级和细粒度流量导向的分段信息直接嵌入到IPv6数据包头中,相比MPLS提供了更大的灵活性。这种方法不仅实现了丰富的编排能力,还减少了控制平面的开销。

包括Cisco、Juniper、Arista、Nokia和Arrcus等主要网络厂商都已经采用了SRv6。例如,Arrcus利用SRv6在多个网络域之间实现端到端的QoS。

Scale Outside:数据中心互连

Meta在其2024年的Networking@Scale大会上透露,AI模型训练对骨干网络的影响已经超出了最初的预测。主要运营商如Lumen和Zayo也在其投资者报告中证实了这一趋势,强调了强大数据中心间连接的重要性。

为了满足这些需求,光互连技术领域正在迅速发展。行业已经广泛采用了400ZR/ZR+模块,针对不同的应用场景具有不同的特点:

  • 标准的 ZR 模块在传输距离达 120 公里的情况下,对 400Gbps 的传输速率进行了优化。
  • ZR + 变体通过 OpenZR + 和OpenROADM标准支持灵活的调制方式,并将传输距离延长至 400 公里。

数据中心互连(DCI)技术的下一个前沿是800ZR/ZR+。OIF(光互联论坛)于2024年10月发布了800ZR实施协议,标志着这一新标准的到来。该标准带来了显著的进步:

  • 使用16QAM技术,能够在 520 公里的距离上实现 800Gbps 的传输速率。
  • ZR + 变体将传输距离延长至 1000 公里以上。
  • 与 400ZR 相比,每比特的功耗降低了 30%。

这些发展对于AI工作负载至关重要,预计800ZR+设备的出货量将快速增长。该技术改进的能源效率对于支持AI基础设施的电力受限的数据中心来说尤为宝贵。


数据中心其他注意事项

除了网络和互连技术,还有其他一些因素影响着现代数据中心的架构。SmartNIC和DPU在结构管理和安全执行中的作用日益重要,特别是在安全性和隔离方面。

安全性和DPU

AI前端和云数据中心网络共享一些共同的安全需求,尤其是在网络分段方面。这些需求包括:

  • 强大的租户隔离






请到「今天看啥」查看全文