专栏名称: SDNLAB
SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台,涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域,提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。
51好读  ›  专栏  ›  SDNLAB

智算网络:支撑DeepSeek等AI大模型的网络基础设施

SDNLAB  · 公众号  ·  · 2025-03-05 14:34

正文

请到「今天看啥」查看全文


图片


最近,DeepSeek 以破竹之势席卷了整个行业,它凭借出色的性价比、开源开放理念和强大的AGI处理能力成为众人瞩目的焦点。DeepSeek“狂飙”背后,离不开一个关键基础设施的支撑——智算网络,它如同AI时代的“超级高速公路”,通过高效整合算力资源、优化通信架构,为AI大模型提供了从训练到推理的全链路加速。本文将带大家看一看,什么是智算网络。


在很久很久以前( 呃,近十几年 ),有一个叫“信息小镇”的小村庄。那时候,村民们( 各种应用和服务 )想要交流信息,得靠“信使”( 传统的IT架构 )跑腿,效率低不说,还容易出错。后来,“虚拟化村长”出现了,他发明了一种叫做“信息分身术”的魔法( 虚拟化技术 ),让每个村民都能拥有自己的“信息分身”,这样一来,村民们就可以通过“村广播站”( 云服务 )轻松地交流信息了,小镇也因此迎来了第一次科技革命。


随着时间的推移,“信息小镇”逐渐发展壮大,并开始向“智慧小镇”蜕变。在这个过程中,大模型的爆发如同一股强劲的风暴,推动着小镇的智能化进程。这些“智慧大脑”( AI模型 )凭借其强大的学习和推理能力,成为了小镇快速创新和发展的强大引擎。与此同时,“资源调度队长”( 云化技术 )也意识到了资源整合的重要性。他将镇上的“能源站”( 计算资源 )、“仓库”( 存储资源 )和“交通网络”( 网络资源 )巧妙整合,形成了一个高效的“资源共享中心”,大大提高了资源的使用效率。于是,智慧小镇变得更加繁荣,各种“智慧产业”( AI应用 )如雨后春笋般涌现。


然而,这些产业对“能源”( 算力 )的需求极高,“传统能源站”( CPU )已无法满足。因此,“新型能源”( GPU、TPU等新型计算芯片 )应运而生,为小镇的“智慧产业”注入了源源不断的活力。但即便如此,随着大模型和各类AI应用的日益增多,对“能源站”的需求达到了前所未有的高度。为了支持它们,小镇决定建设一个“超级网络”( 智算网络 )——一个能够连接所有“能源站”和“智慧大脑”的庞大网络。


如何构建“超级网络”(智算网络)?


建设这个“超级网络”可不是件容易的事。首先,这个网络需要极高的“输电能力”( 计算能力和显存支持 ),就像是小镇上的电网需要能够承受所有电器的用电需求一样。然而,在建设过程中,小镇遇到了许多技术难题,比如“信息高速公路”上的“交通瓶颈”( RDMA网络中的链路头阻 )、“交通瘫痪”( PFC死锁风暴 )、“交通拥堵”( 拥塞控制 )和“资源分配不均”( 负载均衡 )等问题。这些问题不仅影响了“信息流通”的速度,还直接关系到“智慧大脑”的学习和成长效率。


“超级高速”的带宽需求


在智慧小镇上,“智慧大脑”们需要频繁地交流信息,无论是“邻里间”( 机内GPU间 )还是“跨区域”( 机间GPU )的通信,都产生了大量的“信息包裹”(通信数据量)。这些“信息包裹”对“高速公路”的宽度和速度提出了极高的要求。特别是在“智慧大脑”们进行“集体学习”( 模型并行和数据并行 )时,“信息包裹”的数量更是达到了惊人的“百车连发”( 百GB级别 )。因此,“超级组网”必须支持“超高速行驶”( 高速互联协议 ),并且能够提供足够的“车道宽度”( 单端口带宽和总带宽 )。


“零延误”的交通要求


“交通延误”( 网络时延 )和“交通波动”( 抖动 )对“智慧大脑”的学习效率有着重要影响。就像是小镇上的公交车如果总是迟到或者行驶速度不稳定,乘客们( GPU )的有效出行时间就会减少。以小镇上的“明星大脑”( GPT-3模型 )为例,如果“交通延误”从 10μs 增加到 1000μs,那么乘客们( GPU )的有效出行时间占比就会降低接近10%。而“交通波动”则可能导致“集体出行”( 集合通信 )的效率降低。因此,如何减少“交通延误”、提高“道路通行能力”( 网络吞吐 )并减少“交通波动”,成为了智慧小镇能够充分发挥“能源站”潜力的关键。


“稳如泰山”的网络保障


此外,智慧小镇的网络系统稳定性对整个“能源站”的计算稳定性产生了决定性的影响。就像是小镇上的电网如果经常出现故障或者电压不稳定,那么所有的电器都无法正常工作。同样地,如果网络出现故障或者性能波动,那么“智慧大脑”们的学习就会受到影响。因此,在“智慧大脑”的学习周期中,维持网络的稳定高效运行是极其重要的。智慧小镇需要建立一个“稳如泰山”的网络系统,确保“智慧大脑”们能够在一个稳定、高效的环境中不断成长。


智算网络架构


智算网络要满足这些复杂且多元的需求,其架构设计起着关键作用。架构就像是智算网络的“骨骼”,它决定了决定了智算网络的性能、扩展性和稳定性。


Fat-Tree+多轨


胖树(Fat-Tree)Clos无阻塞网络架构以其精湛的路由设计、卓越的可扩展性和便捷的管理特性,成为了AI训练领域的常青树。对于那些中小型规模的GPU集群网络,它们往往采用简洁明了的Spine-Leaf两层架构,这是一种既经济又高效的组网方式。


然而,当GPU集群的规模日益庞大,三层胖树(Core-Spine-Leaf)架构便应运而生,虽然网络的层次增加带来了转发跳数与时延的些许上涨,但其强大的扩展能力和稳定的性能依然赢得了众多青睐。胖树结构采用无收敛设计,确保上下行带宽一致,有效避免了传统树形网络拓扑中的带宽收敛问题,实现了无阻塞转发,支持多种流量模式的数据吞吐量。其多层次的树状拓扑设计减少了网络中的跳数和延迟,提升了数据传输的高吞吐量,尤其适合处理复杂且数据密集型的工作负载。此外,胖树结构还具备出色的扩展性和容错能力,能够支持大规模网络部署,并在网络故障时提供高可靠性。


图1:两层 Fat-Tree vs. 三层Fat-Tree组网架构


在GPU服务器的接入方式上,有单轨与多轨两种方式。单轨接入方式就像是一条独行道,GPU服务器上的网卡全部汇聚于同一台Leaf交换机,就好比在机房布线的复杂丛林中开辟出了一条简洁明了的路径,但单轨的集群通信效率稍显逊色。多轨接入方式则是将GPU服务器上的N张网卡各自接入N台Leaf交换机,这种方式如同高速公路上的多车道,集群通信效率极高,大部分流量都能在Leaf层轻松完成传输,或是经过本地GPU服务器机内代理的短暂停留后,再顺畅地流向Leaf层。不过,如若Leaf交换机出现故障,多轨方式下受影响的GPU服务器数量或许会比单轨方式更多。


目前业内典型的大模型组网架构多为Fat-Tree+多轨,例如腾讯的星脉网络、阿里巴巴的 HPN (High-Performance Networking)网络都是基于Fat-Tree架构的变形,而Meta和MIT 提出Rail-Only 架构则是在三层 Fat-Tree 架构的基础上剔除了 Spine 层交换机。


Dragonfly


传统Clos树形架构,作为智算网络架构的中流砥柱,以其广泛的适用性赢得了无数掌声。然而,在时延与建设成本的双重考验下,它并非无可挑剔。在高性能计算网络的舞台上,Dragonfly网络以其小巧的网络直径和低廉的部署成本,如同一匹黑马般脱颖而出。Dragonfly网络巧妙地分为Switch层、Group层和System层,它们之间通过精心设计的链路相互连接,构成了一个既紧密又松散的网络生态系统。


图2:Dragonfly 组网架构


在组网性能方面,以64端口交换机为例,Dragonfly网络可以轻松支持超过27万个GPU卡,这相当于三层Fat-Tree架构所能容纳GPU数量的4倍以上,而交换机数量及传输跳数却能降低20%。不过Dragonfly 网络下GPU集群每次扩展都需重新部署链路,因此其可维护性相对较差。


2024年11月,全球固定网络创新联盟(NIDA)发布的《智算数据中心网络建设技术要求》中提出,推荐采用如 Dragonfly+、Group-wise Dragonfly + 等二层扁平化组网架构来应对大规模算力集群互联、高通信效率传输及高可靠网络运维的挑战。谷歌的 Aquila 架构将 Dragonfly 拓扑与自定义交换机、GNet 协议等相结合,构建了低延迟的数据中心网络。


超宽无损网络


随着智算网络的日益复杂和庞大,虽然网络的速度和带宽在不断提升,但“交通瓶颈”、“交通瘫痪”、“交通拥堵”和“资源分配不均”等问题却时有发生。为了解决这个问题,小镇的居民们开始探索一种全新的“超宽无损网络”。它不仅拥有超宽的“车道”,更具备“零延误”和“稳如泰山”的交通特性。


RDMA技术以其独特的内核旁路机制,打破了传统网络的束缚,让应用程序与网卡之间实现了直接的数据对话,无需操作系统和TCP/IP协议栈的繁琐介入,将数据传输时延骤降至惊人的1微秒。RDMA的内存零拷贝机制,仿佛为数据流动铺设了一条无阻的通道,接收端能够直接从发送端的内存中汲取数据,极大地减轻了CPU的负担,让CPU的效率得到了前所未有的提升。


然而,RDMA技术在降低服务器侧处理时延、提升计算和存储效率的同时,也悄然埋下了网络拥塞的隐患。网络处理时延的增加、业务丢包的风险,威胁着整个系统的稳定运行。业务丢包所引发的重传,更是进一步加剧了时延,严重削弱了计算和存储的效率。因此,构建一套无损网络技术体系,为RDMA提供一个低时延、零丢包、高吞吐的网络承载环境,成为了当务之急。


无损网络技术以确保网络不丢包为前提,致力于实现高吞吐转发。在这其中,流量控制、拥塞控制及负载均衡等技术如同它的左膀右臂,共同守护着网络的稳定与高效。然而,原生IB RDMA技术对于专用且昂贵的网络设备的依赖,如同一道难以逾越的鸿沟,限制了其广泛的应用。相比之下,基于以太网的RoCEv2技术,以其兼容性强、成本更低的优势,展现出了广阔的应用前景。


RoCEv2流控机制


在RoCEv2网络中,PFC(Priority-based Flow Control)技术如同一道坚固的防线,有效应对着拥塞场景下的丢包和重传时延问题,提升了计算和存储的效率。PFC通过合理配置交换机的缓存水线,实现了以太网络中的无丢包能力。它像一位敏锐的交警,时刻监控着下游交换机的缓存状态,一旦发现拥堵,便立即向上游设备发送PFC Pause帧,暂停数据包发送,这种机制不仅支持整条链路的流量暂停,还能够在一条链路上创建多个虚拟通道,各虚拟通道对应一个优先级,从而实现了对任意虚拟通道的单独暂停或重启,同时允许其他虚拟通道流量的无中断传输,有效缓解了网络压力。


然而,过多的PFC Pause却也是一把双刃剑,虽然能够缓解拥塞,但也可能降低吞吐量,甚至引发PFC死锁。为了在低时延、无丢包的网络环境中提高吞吐量,业界进一步引入了ECN(Explicit Congestion Notification)和DCQCN(Data Center Quantized Congestion Notification)技术。ECN能够通过IP层和传输层的流量控制机制,提前感知网络拥塞,并向服务器端发送拥塞通知。服务器端收到通知后,会及时调整发送速率,避免拥塞进一步恶化。为了使接收端能够感知网络拥塞,IP报文中定义了ECN字段,并由中间交换机修改ECN字段以实现对接收端的拥塞通知。这种机制如同一张精密的网,能够捕捉到网络中的每一个细微变化,从而确保网络的稳定运行。


图3:ECN工作示意图


但现网中的流量场景往往复杂多变,传统动态ECN门限功能难以覆盖所有场景。对此,AI ECN功能应运而生。AI ECN能够根据现网流量模型进行AI训练,从而对网络流量的变化进行预测,并根据队列长度等流量特征调整ECN门限,进行队列的精确调度。这种智能化的调度方式,不仅能够在避免触发PFC流控的同时,尽可能兼顾时延敏感小流和吞吐敏感大流,还能够根据网络流量的实际情况进行动态调整,从而保障整网的最优性能。


紫金山实验室智算中心三网分离方案


紫金山实验室提出的智算中心三网分离方案是一种针对数据中心网络架构设计的先进理念,旨在提高网络的性能、可靠性和灵活性。该方案主要将智算中心网络分为存储网业务网、GPU超宽无损网络和管理接入网三个独立但相互协同的部分。


图4:智算中心三网分离方案


存储网业务网实现了GPU与存储之间的互联以及GPU、存储以及外部网络之间的互联。存储系统通过高带宽的网络连接,与智算训练推理区进行高效的数据交换。这种设计确保了数据访问的高速性和稳定性,为智算任务提供了坚实的基础。


GPU超宽无损网络实现了GPU服务器之间的高速、低延迟通信。这种网络设计支持大规模并行计算,能够高效地处理复杂的智算任务。同时,业务网还提供了多种网络接口选项,如200G/400G NIC,以适应不同性能和成本的需求。


管理接入网实现了存储服务器、GPU服务器管理平面之间的互联。通过管理接入网,管理员可以实时监控设备的运行状态、配置网络参数、进行故障排除等操作。这种设计可以实现AI平台对资源的统一纳管,提高了数据中心的运维效率,降低了运维成本。


图5:智算中心网络架构


该架构采用了二级CLOS架构和导轨优化方式组网,旨在提供高效、可靠和可扩展的网络服务,以满足大规模并行计算和数据处理的需求。支持最大16个POOL,每个POOL配备了8台Leaf交换机,以支持大规模的网络连接和数据转发。整个网络架构最大支持8K GPU卡规模,满足了高性能计算和数据处理的需求。该架构支持多种并行计算方式,包括张量并行、流水线并行和数据并行。这些并行计算方式可以显著提高计算效率和性能,从而满足各种复杂应用场景的需求。


在网络互通设计方面,该架构采用了多种技术和策略来确保不同节点之间的有效通信。它采用了Macvlan方式配置网卡地址,每个GPU服务器对应多个网段,每个Leaf对应一个独立网段,这种设计有助于实现网络流量的有效隔离和优化。Leaf和Spine之间通过路由口互联,部署路由协议通告路由,同编号GPU卡之间通过一跳二层转发,跨POOL的GPU通信采用三跳设计,有效地避免网络拥塞和故障扩散的问题。


结语


DeepSeek的爆火并非偶然,其背后是智算网络技术从架构设计到协议优化的系统性突破。无论是组网的高效扩展性,还是无损网络对时延的极致压缩,都在为AI模型的“狂飙”扫清障碍。未来,随着智算网络向更智能、更弹性的方向演进,DeepSeek这样的AI应用必将突破更多想象边界,而这场由网络技术驱动的AI革命,才刚刚拉开序幕。


*本文图片均源自网络,如有侵权,可联系我们删除!

参考:

《面向AI大模型的智算中心网络白皮书》

《新一代智算中心网络技术白皮书》

《智算中心网络架构白皮书》

《智算网络技术与产业白皮书》


SDNLAB 整理了一些智算网络相关的白皮书,
目录如下:

扫码即可免费下载!





2月常读用户


图片

SDNLAB 2月常读用户名单出炉,请第一名尽快联系我们(添加微信号:sdnlabjiang_s,备注常读用户)领取奖励!活动领奖资格有效期一个月,过期作废。


【投稿】: SDNLAB原创文章奖励计划
【有奖】: 常读文章有奖活动进行中







请到「今天看啥」查看全文