专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
普象工业设计小站  ·  重奢男装·清仓捡漏!3680元的「皮尔卡丹」 ... ·  11 小时前  
笔吧评测室  ·  微星雷影 18 2025 游戏本国补价 ... ·  11 小时前  
笔吧评测室  ·  微星泰坦 18 Pro ... ·  11 小时前  
普象工业设计小站  ·  颠覆认知!100多能抢到这种逆天配置的性能衣 ... ·  昨天  
普象工业设计小站  ·  惊呆了!用打字机作画,这波操作太绝了,求借这 ... ·  昨天  
51好读  ›  专栏  ›  企业存储技术

MegaSacleOut:长距高性能网络千卡AI训练测试

企业存储技术  · 公众号  ·  · 2025-03-11 07:40

正文

本文转载自微信公众号“ CCSA开放数据中心委员会”,原文链接见文末。
过去几年,大模型训练使用的算力从千卡增长到了十万卡。 业界预测,未来5到10年,通用人工智能(AGI)在庞大的算力支撑下成为现实。 然而,随着算力需求的急剧膨胀,园区物理资源的瓶颈问题正日益凸显。
在最新一代大模型的训练中,谷歌、微软和Meta等行业巨头均采用高性能网络,互联多个园区整合了十万量级的H100。与此同时,国内企业在积极对标GPT-5或Llama4等国际领先模型时,面临着高端GPU禁运的严峻挑战。根据预估,完成单任务训练可能需要数十万卡GPU的支持。跨园区扩展GPU集群或将成为国内企业实现技术追赶的必由之路。此外,当前的GPU集群普遍存在“孤岛”现象,各集群之间缺乏有效整合,导致算力资源无法得到充分利用。如何打破这种孤立状态,实现算力的池化管理,以支持更多并发任务,成为了业界亟待攻克的关键难题。



为什么不能用现有的DCI?


当谈及跨园区互联,现有的DCI(数据中心互联)网络是首要被考虑的方案。为了承载跨域流量,DCI网络先后发展了MPLS(多协议标签交换)、SDN(软件定义网络)以及SR-MPLS/SRv6(段路由)等技术,提高了网络的可用性和服务能力,降低了单比特成本。近年来,DCI带宽规模稳步拓展,服务质量也在不断提升,以满足日益增长的跨园区互联需求,推动各行业数字化转型与协同发展。
在数据中心互联领域,传统DCI与高性能网络的业务特性存在显著差异。从承载流量类型来看,传统 DCI 主要负责承载 CPU 服务器的 TCP 流量。受限于 CPU 单核处理能力、 TCP 协议的慢启动机制以及 10ms - 40ms 的往返时延(RTT),导致单流数据传输速率通常小于 1Gbps,最高也不超过 10Gbps 。高性能网络主要承载 GPU 服务器的 RDMA 流量,RDMA 具备线速启动的特性,大多数流量都在 10Gbps 以上,形成所谓的大象流。在传输性能方面,传统 DCI 的 “温和” TCP 流特性,使其在单端口速率、拥塞控制和负载均衡等方面面临的挑战相对较小。目前,传统 DCI 的主流方案仍采用 100GbE 端口速率,在拥塞控制上多依赖纯端侧的 Cubic 或 BBR 算法,负载均衡则基于五元组的随机 hash 策略。相比之下,专为大模型训练打造的高性能网络已演进至 400GbE 端口速率,拥有更为先进的端网协同拥塞控制机制,能够实现逐流路径预规划,甚至可以做到逐包负载均衡,极大提升了网络传输的效率与稳定性。
GPU互联,我们需要从零出发,打造一张全新的长距高性能网络。
图片

图1 TCP和RDMA的典型流量


长距高性能实验网


在 2024 年 9 月,为有效满足业务对于 H800 和 H20 多模态混训的探索需求,一张长距高性能实验网正式建成。该实验网通过 120km 的光纤,搭配具备 400GbE 大端口、大缓存特性的交换机(DR),实现了 3.2T 带宽,成功连接了两个 GPU 园区。
为降低园区内拥塞发生的概率,在网络规划阶段,规划了 12.8T 的 DR-GPULC 互联带宽,确保了出园区的流量能够高效、顺畅地抵达 DR,将最关键的拥塞控制问题集中交由 DR 处理,最大程度地减少了跨园区流量对园区内流量的干扰,为多模态混训业务提供了稳定、高效的网络环境。
图片
图2 实验网架构

算力损失的理论建模


由于单台高端 GPU 服务器成本通常高达百万以上,使得 GPU 利用率成为业务中最关注的运营指标之一。跨园区网络与园区内网络相比,存在显著差异。其带宽相对更低,往返时延(RTT)更大,并且链路中断的概率更高。在业务的迭代过程中,这些特性导致通信时间在整个处理流程中的占比增加。由于 GPU 在通信等待期间处于闲置状态,从而使得 GPU 利用率下降,相对于单园区的运营模式,产生了所谓的算力损失。
实践表明,跨园区对计算时间、数据加载时间、园区内通信时间的影响微乎其微,所以算力损失的“罪魁祸首”就是跨园区通信时间,计算公式如下:
图片
其中msgSize是一次跨园区通信需要传输的数据量大小,pair_crossDci是同时跨园区通信的GPU对的数量,RTT为往返延迟,每100km为1ms。因为大家共享bw_DR(实验网中为3.2T)带宽,所以分摊到单卡的带宽为bw_DR/pari_crossDci。举个例子,100对GPU同时通信,单卡的带宽(假定负载绝对均衡)只有30Gbps,而园区内这个数值是400Gbps,高了10倍以上。
另外两个参数k和𝛼_𝐿𝐵与所采用的网络技术相关。k=1,2, … 反映了传输次数,由发送窗口大小、重传次数和集合通信的缓存大小决定,𝛼_𝐿𝐵≤1 反映了不同GPU卡间负载不均的程度。公式揭示了网络优化减少算力损失的几乎所有技术路线:优化发送窗口大小,优化集合通信的缓存,避免拥塞、链路中断导致的丢包(无损lossless)使得k尽可能小,完美的负载均衡使得𝛼_𝐿𝐵尽可能接近1。



小规模和千卡测试


在交付给业务方评估跨园区所带来的算力损失之前,运用 NcclTest 工具对常用的集合通信展开测试。结果显示,在 120km 的长距链路环境下,DCN 相关参数表现欠佳。对于 1MB 以上的消息,均被分割成更小的数据块进行传输,导致消息传输延迟至少增加了 1 个 RTT(约 1.3ms)。而当消息大小达到 256MB 以上时,传输延迟的增加幅度更是超过 100 倍 RTT。






请到「今天看啥」查看全文