专栏名称: 通信头条

通信业分析，智能业的信息，TMT的态度。

论文：运营商智算中心建设思路及方案

通信头条 · 公众号 · 通信 · 2024-10-21 18:22

正文

欢迎点击上面“通信首条”关注。投稿、合作和沟通请加小 编微txttiao

摘要

人工智能训练的计算复杂度逐年猛增，所需的智能算力从每秒千万次运算增加到数百亿次，甚至进入千亿级别，促进了大规模智算中心的建设。智算中心主要满足智算算力的需求，其布局、建设及维护方案与传统的云资源池存在较大差异，当前运营商对智算中心的布局以及详细方案并没有统一的建议和参考。分析了大模型发展带来的算力、存储、组网的需求挑战，对运营商智算布局以及算力、存储、网络、维护管理等提出了相应的策略和方案建议。

前言

人工智能聊天机器人ChatGPT、AI编程工具GitHub Copilot、图像生成系统Stable Diffusion、视频生成系统Sora等生成式人工智能（Generative AI，Gen-AI）应用和工具产品的出现，为文本创建、图像视频生成、代码生成以及研发流程等工作带来了全新的智能体验，极大地提升了生产力，提高了生产水平。

Gen-AI应用的出现离不开大模型的支持。大模型是基于海量参数进行自监督学习的预训练模型，凭借更强的学习能力、更高的精准度以及更强的泛化能力，正在成为人工智能技术发展的焦点。随着大模型的快速成熟，其参数规模呈百万倍增长，随之而来的是算力需求的剧增，芯片算力的增长速度与模型参数规模的增长存在剪刀差，推动了超大规模智算集群的建设。

作为基础设施建设者和新质生产力的推动者，电信运营商正积极推进智算布局。本文基于大模型的发展趋势和需求，结合运营商的特定优势，提出了智算集群布局以及算力、存储、网络和维护管理方面的策略和方案建议。

0 1

大模型的发展趋势和需求分析

1.1 大模型发展的趋势

虽然大模型的概念已经深入人心，但是目前没有明确界定标准来判定模型为小模型还是大模型。根据模型表现和模型算力需求，业界一般认为一个经过充分训练的百亿参数的模型可认定为大模型 ^［1］。大模型遵循的三大统计特征如下。

a）Scaling Law。模型表现依赖于模型规模、计算量和数据量，这些因素之间呈现幂律关系 ^［2］。

b）Chinchilla Law。模型大小和数据量要同等比例扩展，即数据量需达到参数量的20倍，模型训练结果才能达到饱和 ^［3］。

c）智能涌现。只有训练计算超过10 ²² 或训练损失足够低时，才会出现智能涌现，即在典型人工智能任务上的能力大幅提升，而和具体模型无关 ^［3-4］。

上述三大统计特征揭示了，随着参数模型量越来越大，模型对训练所需算力的需求越来越大，随着Sora等多模态视频模型的兴起，参数量规模剧增，OpenAI的GPT-4以及Google的Gemini Ultra都宣称达到了万亿级参数 ^［5］。参数量剧增导致训练所需的数据量越来越大，有预测认为，到2026年文本数据将被训练完，图像数据将在2040年前后被用完，合成数据将会是未来数据的主要来源 ^［6］，数据量规模会再一次量级跃迁，对存储的规模和性能带来更大的挑战。此外，智算集群的规模也从百卡发展到万卡，甚至十万卡级别，对网络通信的带宽和时延要求越来越高。

1.2 算力需求和挑战

在Transformer模型结构中，算力需求与模型参数规模、数据量具有相关性，具体如表1所示。

表1 算力需求和模型参数规模

按照上述关系，以GPT-3 175B的参数量（1 746亿）为例，其训练算力的需求为6×174.6B×300B=314 000 EFLOPS。若采用910B（376 TFLOPS@FP16）集群，按照GPU利用率为30%，训练28天，则需要约1 150张910B GPU卡。

按照上述测算，对于万亿参数模型，则需要万卡级规模集群；对于十万亿参数模型，则需要十万卡级规模集群。因此，为了实现通用人工智能AGI，国内外互联网厂商纷纷开始“囤卡”。在算力需求倍增的同时，带来如下挑战。

a）对显存容量和性能的挑战。GPU卡中的高带宽存储器（High Bandwidth Memory，HBM）是基于3D堆栈工艺的高性能DRAM，其本质是将多个DDR芯片堆叠后和GPU一起封装。目前，AI算力增长速度远高于显存容量和性能的增长速度，以英伟达A100、H100为例，虽然H100较A100的算力增长了将近3倍，但显存容量没增长，带宽只增长了近2倍，这对分布式显存调度提出了更高的要求 ^［8］。此外，当前HBM的主要厂商为海力士、三星和美光，国产GPU卡可能无法使用最新的HBM技术，显存能力演进受限。

b）对散热和资源的挑战。从GPU卡的演进来看，GPU模型的算力和功耗成比例增长，昇腾910B芯片TDP为392 W，单台训练服务器功耗达到5.2 kW。以GPT-3为例，训练所需电量达到1 287 MW（碳排放为502 t），每天推理需要用电50万 kWh，冷却设备所需的水达到70万 L，对电力资源和水资源都是巨大挑战 ^［9］。

c）对GPU跨厂家协同、跨代际演进的挑战。跨厂家GPU因为软件生态、底层算子不同，导致上层模型无法一次编译后异构执行。即使采用同一厂家的GPU，也因为不同型号GPU的算力、显存和通信能力甚至算子优化不同，共集群训练时面临性能损失、无法发挥优势的问题。

d）对供应链保障的挑战。受美国芯片禁令的影响，国内将无法购买国外先进的GPU产品，国内GPU的产能和生态面临巨大挑战。

1.3 存储需求和挑战

AI大模型的训练和推理都会涉及到数据的存取。在训练之前的数据预处理阶段，需要对海量数据进行处理，包括格式对齐、归一化、去重、隐私保护、异常值处理等。训练阶段涉及海量小文件的训练数据存取和训练过程中参数文件的周期性保存；在推理阶段，需要读取本地存储的模型参数，并对实时样本进行处理，输出推理结果。

AI大模型的训练和推理对存储带来的挑战如下。

a）对数据访问性能的挑战。一方面是大量小文件带来的元数据访问挑战，另一方面则是海量小文件并发快速读取、Checkpoint周期保存参数对数据存取带来的挑战。

b）多模态数据统一访问的挑战。对于视频和图片多模态数据输入，会对原始文件进行特征提取并以小文件的形态保存，因视频和图片原始特征复杂，处理后数据量倍增。此外，为便于后续对多模态原始和特征数据的存取，需要建立相应的快速检索机制和内容审核能力。

c）对数据安全的挑战。复杂繁多的数据处理环节，导致数据处理存在诸多安全风险，包括数据隐私泄露、数据违规侵权、数据不可追溯、数据操作不合规等。

1.4 组网需求和挑战

在大模型训练和推理中，主要的关键网络和相关通信挑战如下。

a）训练数据到训练计算集群的网络通信。当前数据源和数据存储主要靠近人类居住密集和业务热点区域，和自然土地资源、电力资源相对丰富的西部地区距离较远。在训练时，需将训练数据传输到西部节点，这类数据对实时性要求不高，可以采用快递硬盘或者互联网专线进行传输，以节约成本，但互联网专线因业务模式的问题，当前成本相对较高。以传输 0.7 PB数据为例，采用2.5寸的3.68 TB硬盘进行数据存储，需要约50块硬盘，如果采用航空快递，1 000 km的快递成本预计为1 000元、时间预计为24 h；若租赁1 Gbit/s有保障的互联网专线，按照30 000元/月的价格（按照每月30天，每天费用为1 000元）计算，约1.5 h可完成数据传输。

b）训练时单GPU服务器的卡间通信。为提升大模型的训练速度，一般会采用数据并行、流水线并行和张量并行，其中张量并行的并行度一般和单GPU服务器的卡数量等同，张量并行对卡间实时通信的带宽和时延带来挑战。当前卡间通信的结构主要有总线结构（例如昇腾HNCCS通信方式）和交换结构（例如英伟达NvLink通信方式）2种，总线结构因布线复杂和制程工艺要求较高，带宽和扩展性受限。国产卡较多采用总线结构，卡间互联带宽远低于国外产品，同时单机内卡规模数一般不超过8，导致张量并行度受限。

c）训练时GPU服务器集群的通信。数据并行和流水线并行对集群内机间实时通信的带宽和时延带来挑战。为了减少计算单元的闲置，需要在流水线单元的计算周期内完成前序数据的同步和通信，一般要求在百毫秒级完成数据通信，按照10GB级的通信量，集群内机间带宽应至少达到100 Gbit/s，且随着单卡算力和吞吐的增加，对机间带宽的需求也同步增加。此外，为了避免数据重传，一般要求集群内组网为无损网络。

0 2

智算中心的部署策略和方案建议

2.1 绿色集约、高效布局

当前智算中心有2个典型选址策略：第一，优先选择“东数西算”枢纽节点，尤其是西部自然资源丰富的地区，土地和电力资源优势明显；第二，聚焦北、上、广、深等业务和大模型产业活跃的城市与地区 ^［10］，靠近业务和数据。运营商因可信安全优势和充沛的骨干传输资源，在布局上具有天然优势，且基本符合上述策略，其中中国联通优先在上海、北京、广东、内蒙古开展“一基地三高地”智算梯次布局；中国移动规划部署“4+N+31+X”数据中心，在内蒙和林格尔建设大型单体智算中心；在中国电信“2+4+31+X+O”的算力布局中，除了内蒙古和贵州2个全国性云基地，还在上海临港部署了万卡智算集群。

除布局策略外，智算中心在散热模式、机房部署方面还应充分考虑低碳绿色、集群组网，具体策略和方案建议如下。

a）优选液冷散热模式。液冷技术可有效降低PUE，提升装机密度，且液冷节点及相关器件（例如光模块）的温度比风冷节点更低，可有效提升可靠性，降低数据中心的运维成本，提高整体经济效益。在智算资源池的建设中，智算训练服务器应优先采用液冷技术。

b）慎用风液混合模式。GPU集群长时间运行时，GPU卡在风冷集群的温度可能达到100℃以上，为避免过热带来的故障和风险，GPU卡会进行降频处理，如果风、液冷共集群，液冷设备的GPU卡的高性能就无法发挥最大价值。因此，在智算中心建设前要做好提前规划，避免不必要的损失。

c）单一智算集群的机房不宜过度分散。为便于无损网络组网部署和后续故障定位，建议Leaf与GPU服务器之间的距离不超过100 m，即两者最好同机房部署；建议Leaf与Spine之间的距离不超过2 km，当Spine与Leaf跨机房时，建议将所有Spine部署在一侧机房，尽量减少拉远的Leaf数量。

2.2 多元探索、异构优化

国内外主要GPU卡的基本情况如表2所示，其中英伟达GPU卡在算力、显存、卡间通信、生态等方面处于领先地位，AMD和Intel的GPU卡在算力上逐步追赶，但是在生态上仍存在短板；国内则以昇腾GPU卡为主导，其他国产GPU卡不仅算力不足，在实际规模化部署上也缺乏典型案例。

表2 国内外主要GPU厂家和相应型号

受政策影响，英伟达、Intel等国外芯片厂商的芯片面临无法在中国出售或者改版而导致性能下降的问题，而国产GPU则在能力和生态上存在差距。

根据现状，在算力策略和方案上的建议如下。

a）积极发展多元算力供给。一方面，应发展多元GPU芯片。GPU芯片影响单位智算算力，已经成为制约大模型发展的瓶颈，鉴于当前国内外政策和GPU发展水平，应积极开展多元算力芯片适配以及异构算力的管理和调度。另一方面，智算和通算需紧密结合。AI大模型的前端访问和上层应用离不开通算，而在训练和推理过程中，AI大模型也需要通算来运行和处理任务和数据的调度访问。

b）兼顾多元芯片和单一芯片。多元算力异构必然带来多个智算软件生态，为模型适配和优化带来挑战，需要进行差异化考虑。对于超千亿的大模型的训练，因集群规模大、训练时间长、模型复杂，建议以单一GPU芯片为主；对于百亿十亿等中小模型，其集群规模在百卡左右，规模相对较小、模型适配相对简单，可以进行多元芯片探索。

c）兼顾时效性和芯片演进。GPU芯片在不断迭代更新，对于跨GPU芯片型号的组网，因为不同型号GPU的算力、互通、显存等能力不同，存在木桶效应，无法发挥高性能GPU芯片的效能，建议大规模集群选择单一芯片，同时应充分考虑建设交付周期、未来业务发展趋势、芯片演进计划等因素。对于型号落后的GPU训练芯片，未来随着多模态模型推理对算力需求的增加，可用于对视频生成的推理。

2.3 分层分级、存算协同

运营商本身拥有较为丰富的数据资源，包括内部IT系统积累的数据，也包括网络运行过程中海量的性能、告警、故障等运行数据和用户运营数据。上述海量数据通过运营商骨干网络进行传输，在汇聚、整合之后形成了特有的数据资产，此过程积累了数据清洗、数据标注、数据分析、数据可视化、数据传输等方面的技术。

鉴于上述优势和积累，对数据存储方面的策略建议如下。

a）充分发挥大数据技术的优势。运营商经过多年技术积累，具备在异构硬件之上搭建大数据平台，数据离线批处理和实时流处理的能力，同时储备了数据清洗、数据规整、数据治理的能力。在存储方面，运营商可形成对外开放或可授权的数据资产，并将数据资产与智算服务相结合，实现数据增值。

b）做好存力和运力的协同。对于用户数据存储热点区域，其存力需求巨大，需要提前做好和智算中心之间的运力提升，便于训练数据和推理数据的传输。

c）在具体存储资源和能力部署上，对于清洗后的训练样本、训练中的Checkpoint数据等热数据，以及未清理的海量数据、训练好的模型数据等温冷数据，因为两者的访问频率和性能需求不同，需分别考虑其存储方案。

d）对于热存储，为保障性能，采用高性能介质NVMe SSD，建议优选高速并发NAS协议，高带宽接入。考虑到磁盘阵列性价比和扩展性的问题，后端存储可以采用Diskless架构，其典型整体架构如图1所示。以在智算中心中广泛应用的Lustre/GPFS等高性能、面向对象的并行文件系统为例，在Diskless架构下，Lustre/GPFS使用“盘即存储”的新型NVMe盘框替换存储服务器，可实现资源的池化共享、按需分配和扩展，从而提升资源利用率，降低整体成本，同时还可以隔离故障，简化运维管理。另外，从可靠性的角度来说，由于Lustre的多个OSS缺少副本机制，一个客户端或节点发生故障时，存储在该节点上的数据在重新启动前将不可访问，此时Diskless架构的高可靠优势就更为凸显。

图1 采用Diskless架构存储设备的

热存储方案

e）对于温冷存储，主要考虑性价比，应配置高密度、大容量的硬盘。可以选择传统的分布式对象存储，或者采用配置多盘位大容量机械硬盘的高密度新型Diskless架构存储设备。

2.4 前瞻组网、无损传输

当前运营商已经部署了布局广泛的通算资源以及运力充沛的网络资源。在部署智算中心的过程中，运营商可充分发挥已有的资源优势，主要的组网策略如下。

a）充分考虑和东部地区数据的网络通道。智算中心的数据多来自于人口密集、经济活跃、互联网业务深入的东部热点地区，在组网中，智算中心要打通和东部热点地区的网络通道，使能训练数据、推理数据的传输。

b）集群内的组网以终为始，长远规划。不同组网方式存在扩容上限，需以终期算力规模确定配套的网络设备，形成终期规划方案，并结合近中远期需求进行一次性建设或分期实施，在最大限度发挥算力效能的同时，预留扩展能力。

c）广域跨集群训练要慎重。为满足训练时GPU服务器集群的通信，用于并行通信的网络平面按照1∶1的收敛比进行组网，同时也因交换机缓存的限制，交换机之间的部署距离最远为2 km。如果要开展广域跨集群组网，按照1∶1的收敛比进行拉远，以1 024 GPU卡为例，在2个训练中心各部署64台GPU服务器，即512卡，按照英伟达A100或昇腾910B所需要的200G网络，参数面接入交换机下行到服务器为512个200G、上行到参数面汇聚交换机为256个400G，DC间需要256条400G链路，成本巨大；如果按照2×400 Gbit/s互联带宽（即有一定收敛比），则数据发送总时延将增加近12.5天，按GPT-3训练时间30天计算，将增加40%的训练时间，且未考虑网络设备出现数据包丢失和重传的问题。

基于大模型组网需求和上述策略，智算中心典型组网方案如图2所示，分为参数面、样本面、业务面和管理（存储）面4个平面。

图2 智算中心典型组网方案

a）参数面。采用RoCEv2或IB协议实现无损转发，Leaf作为接入节点的网关独立部署，通过200 GE链路与训练服务器互联。Leaf之上可以部署一层或两层Spine作为汇聚，每层网络之间按1∶1进行收敛。充分利用RoCEv2和IB协议，实现流量负载均衡，防止传统基于流的五元组进行hash机制失效导致负载不均和网络吞吐下降、集群业务性能下降。

b）样本面。采用Spine-Leaf两级无收敛架构以满足带宽需求，通信协议RoCEv2可满足时延需求，通常样本面接入交换机端口为100G。GPU服务器通过该网络平面访问高性能文件热存储。

c）业务面/管理（存储）面。业务接入交换机端口通常为25G，且上下行收敛比一般不超过1∶2.5，业务接入交换机之间的互联带宽建议大于等于单台业务接入交换机上行带宽的1/2，业务汇聚交换机之间的互联带宽建议大于等于单台业务汇聚交换机上行带宽的1/2。

2.5 统一运维、全量监控

智算中心应具备算力、网络、存储统一运维能力，统一管理监控集群的训练服务器、存储和网络交换机设备，提供资源管理、性能监控、告警监控、光模块监控、日志分析、作业路径、健康检查、故障诊断等集群运维功能，具体功能要求建议如表3所示。

表3 智算中心运维管理功能建议

论文：运营商智算中心建设思路及方案

正文

请到「今天看啥」查看全文