专栏名称: 苇草智酷

让天下思想者连接起来

安筱鹏 | 智算集群的“三个不等式”

苇草智酷 · 公众号 · · 2024-08-07 17:58

正文

作者 | 安筱鹏 阿里云智能集团副总裁、阿里云智能科技研究中心主任

转自 | 阿里研究院

导语：在人工智能技术飞速发展的今天，超大规模智算集群成为推动AI大模型进步的关键力量。然而，对于这一技术，产业界和市场存在不少误解，例如将智算集群的性能简单视作GPU芯片性能的累加，或是将技术自主性与技术封闭混为一谈。对此，我们需要厘清“假万卡集群”、“伪万卡集群”与“真万卡集群”区别，并探讨构建智算集群的核心要素。目前来看，全球只有微软、亚马逊、META、xAI、阿里云等少数公司具备建立超万卡智算集群的能力。

超大规模智算集群是AI大模型发展的技术基础。当前，产业界和市场中充斥着一些似是而非的观点，有人认为智算集群性能等同于GPU芯片性能相加，有人认为芯片及智算集群的自主可控就是要技术封闭，也有人将智算集群的技术可用当作商业可行。

从全球技术产业发展趋势看，软硬技术先进、生态开放和商业可行才是高质量万卡级智算集群的核心特征，才能为AI大模型发展提供坚实的物质支撑。

全球智算集群迈向“超万卡时代”，万卡级智算集群是全球AI大模型竞争的“入场券”

规模法则（Scaling-Law）是AI大模型的第一性原理，当前关于这个规则是否将会失效仍有不同观点，但可预期的未来2-3年，全球产业界的共识是规模法则（Scaling-Law）在未来几年内依旧有效，更大参数、更多数据的大模型仍然是全球AI竞争的制高点。要训练全球领先的大模型，万卡级智算集群是一个必备的基础设施。

从全球看，全球最先进的智算集群正从千卡、万卡走向十万卡、超十万卡，今天万卡集群也只是大模型军备竞赛的起步价。GPT3训练需要千卡级别的智算集群，GPT4需要2.5万卡集群，GPU5估计超过5万卡集群。Meta公司训练Llama3大模型的集群由2.5万张H100 GPU构成。马斯克xAI建成了10万张H100 GPU的智算集群。有报道称微软建设10万卡H100集群，支持OpenAI训练GPT-6大模型。微软和亚马逊未来5-10年将投资超千亿美元进行智算集群建设。

从国内看，许多企业都宣称建设了万卡集群，但是人们需要判断什么是GPU的“万卡集群”，厘清什么是“假万卡集群”、“伪万卡集群”和“真万卡集群”。

假万卡集群：人有说自己有万卡集群，其实际情况是，公司确实有一万张AI加速卡（GPU卡），但分布在全国几个不同的数据中心，每个数据中心有几百张或几千卡，加起来超过万卡。这种集群是“假万卡集群”。

伪万卡集群：有人说自己指拥有一万张AI加速卡，且部署在同一个数据中心，但训练特定模型的时候，只有一部分卡实际参与训练。例如：1000卡训练A模型，2000张卡训练B模型，3000张卡训练C模型，4000张卡训练D模型。这种万卡集群是“伪万卡集群”。

真万卡集群：是指单一集群拥有一万张AI加速卡（如GPU卡），部署在同一个数据中心，并且能通过大规模资源调度技术，让万卡作为“一台”计算机，单一模型能在这一万张卡上同时进行训练。正如100个昆明湖连起来，也训不出一支航母舰队，大模型也是，只有真正的万卡智算集群，才能训练出国际先进的大模型。

目前全球只有微软、亚马逊、META、xAI、阿里云等少数公司具备建立超万卡智算集群的能力。

今天，关于智算集群，有三个“不等式”：

01、芯片性能 ≠ 智算集群性能

高效协同的软硬件计算系统是构建万卡智算集群的关键

一个地方计划建设100EFLOPS算力规模，其中A地有20E（20E相当于8000台8卡A100服务器），B、C、D地分别有15E、30E、35E的智算规模。一个区域（国家）智算规模是不是各地算力规模的简单相加？如何理解这种简单相加。事实上，基于GPU芯片算力的相加，并不等于一个区域实际的智算规模。GPU芯片算力之和，相当于一个地方发电的“装机容量”，而不是真实的“发电量”。

建设高性能的万卡级智算集群不是建设“二层小楼”，而是建设迪拜哈利法塔这样的世界级“摩天大楼”，需要芯片、服务器、网络设备、调度软件、模型等的紧密配合，对存储、GPU、基础算子底层代码、网络通讯原语等进行系统性优化。

正如“发电装机容量不等于实际的发电量”，同样的“装机容量”其实际的发电力可能千差万别。那么对于智算集群，决定“发电量”的关键技术是什么？有四个核心技术要素：

一是高性能计算。相较传统模型，大语言模型的参数量和训练数据量都有数量级的提升，因此需要高性能的“超级计算机”进行训练。这种高性能体现在计算体系内的多个层次。在芯片层面，意味着单芯片有更强算力；在整机和集群层面，意味着万级甚至十万级的芯片高效协同，形成一台“超级计算机”。以英伟达最新发布的Blackwell GPU系列为例，单芯片B200每秒能进行2,250万亿次浮点计算，训练性能是上一代H100的三倍；72个B200芯片高密度配置在一个机柜中组成的全新加速计算平台DGX NVL72，可处理多达27万亿参数的模型。

二是高性能网络。要实现将万级甚至十万级的芯片联接形成一台“超级计算机”，核心技术门槛在于高性能网络。大模型训练采用分布式训练，将模型任务划分后分配到各GPU上进行运算再将计算结果传递/汇总，这意味着GPU之间需要频繁且大量的数据通信。随着模型规模和集群规模不断拓展，GPU间通信就会成为限制集群性能的瓶颈，表现为集群性能不能随着GPU数量的增加而线性增长，线性加速比低于1。高性能网络是让线性加速比尽可能逼近于1的关键，在高性能网络优化下，集群加速比可达到90%以上。

三是高性能AI平台。高性能AI平台核心在于任务和资源间的高效匹配，是充分发挥高性能计算和网络基础设施性能的关键。大模型训练需要对任务进行拆分，执行数据并行、流水线并行、张量并行等多种并行计算策略，并基于网络拓扑感知找到最优通信方案将任务下发至合适的机器，从而减少通信和等待时间并提升GPU的有效计算时长占比。高性能的AI平台能够显著提升AI资源效率和AI开发效率，例如领先的AI平台能够实现任务视角的灵活调度，从而将GPU资源利用率提升数倍，并提升GPU模型计算利用率（MFU- Model FLOPS Utilization）。

四是智算级监控运维能力。大规模智算集群训练过程中出现故障和错误是必然的。单一GPU故障的偶发，会直接影响全局，从而浪费时间、影响研发进程，甚至需要重启任务。以Meta最新公布的Llama 3训练细节为例，在长达45天的训练中，发生了419次意外中断，平均每天就有9次意外中断。因此智算级监控运维系统的快速感知、快速容错和快速自愈能力至关重要。需要以毫/纳秒级监控快速发现故障、并进行节点切换、流量调度，从而快速实现恢复。某实验室数据显示，智算级别的高效监控运维系统将任务运行的失败概率降低4-10倍，模型任务的启动时间也缩短了数倍。

这四个要素决定了智算集群的效率。一般而言，对于千卡GPU集群，单卡GPU平均利用率在70%左右，集群线性加速比在95%左右。对于万卡GPU集群，单卡GPU平均利用率在50%左右，集群线性加速比在93%左右。单一智算集群的性能也不是单卡算力的简单求和, 不是GPU硬件的简单堆砌，而是需要构建一个高效协同的软硬件计算系统。GPU卡的增加只是“装机量”的增加，并不等于实际发电量的线性增加。万卡超万卡集群能力才衡量和判断一个企业、国家AI大模型核心竞争要素的关键指标。

一个地方的算力建设规模是不是一道数学求和题，集群总算力不是单卡算力之间是线性相加。只有准确理解智算集群的“装机容量”和“发电量”，才能科学评价一个地区、国家的算力真实水平。相对于只关注智算集群的GPU算力求和（装机容量），一个地方一个国家的智算集群发展，应关注四个核心指标：一是“装机容量”，二是“发电量”，三是“装机效率”，即同样的“装机容量”，可以发更多的电。就是智算集群，是不是有更高GPU使用效率、更高的线性加速比。四是最重要的指标是，万卡及超万卡集群的数量和规模。

当前，我国智算既面临供需紧张，同时也存在比较严重的闲置浪费，只有建设大规模、集约化的智算集群，并以公共云的方式提供智算服务，才能实现算力资源的优化配置和高效利用。

02、“自主可控” ≠ “技术封闭”

开放繁荣的技术生态是AI发展的最优选择

2024年4月26日，在十四届全国人大常委会第十讲专题讲座上，中国工程院院士孙凝晖提出我国发展智能计算技术体系存在三条道路：（1）追赶兼容美国主导的A体系；（2）构建专用封闭的B体系；（3）全球共建开源开放的C体系。

智算集群的自主可控并不意味着选择封闭的技术路线，自主和开放不是简单的“二选一”。智算是一个由存储系统、交换机、服务器、芯片、算子库、调度系统、训练框架等构成的软硬件协同的紧耦合系统。AI芯片的技术路线仍在快速迭代和演进之中，芯片国产化不等于单一的技术路线，更不等于封闭的技术路线，智算集群的建设也是如此。

在封闭的技术架构体系中，芯片与硬件绑定、与软件绑定，供应链被管道化，导致生态不兼容。从全球竞争看，我国先进的智算集群建设和大模型产业发展，既要有专用封闭的自主路线，也要有开放兼容的自主路线，技术开放、架构开放和生态开放是追赶全球AI发展的必然选择。

技术开放：统一计算架构（CUDA）是当前全球大模型训练的事实软件标准，智算系统不兼容CUDA系统，就不能复用其加速算子库和工具。大模型的每一次迭代和修改，都需要在算力系统中进行大量重复编程，甚至经常彻底重写代码。这将大大拖累模型研发效率，跟不上全球大模型创新步伐。

架构开放：智算系统由芯片、服务器、网络和软件系统搭建而成，并通过云计算调度技术保证整体性能。全球先进的智算系统都是开放架构，向下兼容多样软硬件设备，向上兼容CUDA生态，底层芯片替换不影响已有AI训练、推理任务的正常工作。开放架构不会因为选择某一款芯片，就必须选择全套专用服务器、网卡、交换机和软件系统，避免带来高昂的技术适配成本，延缓技术创新和迭代速度。

生态开放：大模型开发只是第一步，大模型应用生态繁荣才是最终目标。技术和架构封闭、供应链管道化，会导致生态需要对每个模型应用做单独适配，造成大模型应用创新速度缓慢、成本高昂。今天大模型应用还处在早期，敏捷创新、快速试错能力非常关键，封闭系统不能支撑AI应用创新，也无法支持AI产业的大规模爆发。

03、技术可用” ≠ “商业可行”

商业可行的关键是实现集约化和高性价比

现阶段，建设较大规模的智算集群，在技术上是可用的，但“技术可用”并不等于“商业可行”，技术可行只是商业可行的一个必要不充分条件。从全球看，微软、OpenAI、谷歌、Anthropic等科技公司，都在大规模进行算力投资和模型训练投资。有机构预计，美国科技大公司未来每年在云和AI的投资会超过4000亿美元，OpenAI和Google未来几年的大模型训练预算达到200亿-300亿美元。面对如此巨额的商业投资，需要思考的是：可持续商业闭环的路径在哪里？我们认为，实现可持续商业闭环的关键是实现规模化、集约化和高性价比。

面向AI时代，从模型训练到模型应用，算力的需求会呈指数级增长，更重要的是，模型应用与模型训练对算力的要求完全不同：

在训练阶段。需要的是强大的计算能力、海量数据处理能力和高效的集群通信与任务调度能力。

在推理（应用）阶段。更强调计算的高性价比、弹性伸缩和低时延，这与公共云的特征高度吻合。具体而言：

一是算力的性价比直接影响 AI 应用的规模，公共云具备大规模服务能力，更能发挥规模效应优势，企业可以按需/按使用量进行付费，具有高性价比，能持续降低推理应用的算力价格；

二是推理算力要具有高弹性、高可用的能力，公共云的弹性伸缩优势，能有效应对大模型推理过程中产生的大规模计算需求及流量波动的变化；

三是部分大模型应用对延时较为敏感，依赖于就近可得的推理算力服务，公共云具有更强的分布式覆盖能力，能够就近提供低延时的算力服务。

因此，公共云是缓解算力瓶颈、加速大模型产业化的必由之路和最佳选择。

从商业可行的核心要素看：从“能用”的技术可行到“人人用”的商业可行，需要具备稳定、易用、好用和普惠的智算服务。将供给侧和需求侧进行体系化的适配，是智算集群实现可持续商业闭环的根本要求，具体而言：

一是稳定。需要保障集群的长时间稳定运行，这意味着需要有足够的技术和经验，来解决大模型训练中必然出现的故障切换、网络流量优化等问题。同时供应链的更换不能影响代码和技术架构的修改。

二是易用。需要生态兼容，只有这样，模型开发人员才能专注于模型开发，而无需重构底层代码，模型应用也无需生态各方重新适配，浪费大量人力财力。

三是好用。性能要可预期，核心是集群性能（线性加速比和利用率）能够充分发挥并随规模可预期增长，无需大量人员长时间适配优化。

四是普惠。算力需要普惠，模型训练需要弹性和低成本的算力，而随着模型逐步走向应用，模型推理更需要高性价比、广分布、易获取的算力。因此只有普惠的智算才能能够支持更强大模型的训练和更繁荣的应用生态。

面向可预期的未来3-5年，高质量的万卡级智算集群，是应对全球AI竞争和加速我国大模型产业应用的必备设施，要坚持“技术先进、生态开放和商业可行”三大基本原则，并充分发挥公共云大规模、集约化、高性价比等优势，持续降低模型训练推理成本和创新应用门槛，助力千行百业的智能化转型升级。

——END——

苇草智酷简介——

苇草智酷（全称：北京苇草智酷科技文化有限公司）是一家思想者社群组织。通过各种形式的沙龙、对话、培训、丛书编撰、论坛合作、专题咨询、音视频内容生产、国内外学术交流活动，以及每年一度的互联网思想者大会，苇草智酷致力于广泛联系和连接科技前沿、应用实践、艺术人文等领域的学术团体和个人，促成更多有意愿、有能力、有造诣的同道成为智酷社区的成员，共同交流思想，启迪智慧，重塑认知。

好文推荐

安筱鹏｜AI大模型重构产业竞争力的五种模式

安筱鹏 | 拥抱智能时代

安筱鹏 | 企业数字化的终局是什么？

安筱鹏：数据要素创造价值的 3 种模式

安筱鹏 | 中国没有“百模大战”，也没有“十模大战”