专栏名称: 中国计算机学会

中国计算机学会官方订阅号，为CCF会员及计算领域的专业人士服务。

CNCC | 超万卡大模型集群网络系统，现状、机遇与挑战?

中国计算机学会 · 公众号 · · 2024-10-05 17:00

正文

CNCC2024

论坛简介：

超万卡大模型集群网络系统，现状、机遇与挑战?

举办时间 ：10月24日13:30-17:30

地点：夏苑-泰国馆一楼

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

面向AGI的模型探索伴随着复杂的超大规模AI集群规划、建设、运维、优化过程，对相关企业的基础设施能力提出了前所未有的挑战。如何构建一个稳定、高效、安全、可扩展的AI网络环境，需要深入理解架构设计，了解部署和运行限制，维持硬件设备高效运转，分析面临的关键技术挑战，确保业务获得最优效果。

本论坛邀请华为、百度、阿里、腾讯、字节、Google等支持超万卡集群的业界专家和学术界老师全方面介绍目前实际的业务特征，训练和推理服务的需求，超大规模集群的架构设计思路、硬件软件供应部署状况、并行策略应用原理、网络通信性能优化方法、网络协议（IB、RDMA、以太网）设计与扩展建议、端到端监控调优策略等问题、解释说明行业难题和现阶段方案，通过比较、展示、样例分析为广大师生和一线工程技术人员提供第一手的问题定义和行业现状。

本论坛将进一步讨论未来国内外大规模GPU集群互联的Scale-up, Scale-out 方案的发展思路，超万卡集群网络的设计趋势，开放网络设计，针对GPU 互联等卡脖子问题的破局方案，以及其中涉及到的行业发展理念与观点。

论坛日程

顺序

主题

主讲嘉宾

单位

网络技术新篇章：为 AI大模型训练与推理构建高效平台

张亮

华为技术有限公司

大规模 GPU集群互联的挑战与应对

李兆耕

百度在线网络技术 (北京)有限公司

ETH-X以太超节点：AI网络新特征、算力突破新探索

夏寅贲

腾讯科技 (深圳)有限公司

高通量以太网：智算网络的挑战和体系建设

付斌章

阿里云计算有限公司

迈向高可观测、高可扩展的大规模 AI网络

江卓

北京字节跳动科技有限公司

Panel环节

赵世振

上海交通大学

张亮

华为技术有限公司

李兆耕

百度在线网络技术 (北京)有限公司

夏寅贲

腾讯科技 (深圳)有限公司

付斌章

阿里云计算有限公司

江卓

北京字节跳动科技有限公司

论坛主席及嘉宾介绍

论坛主席

王晓亮

长期从事“网络系统软件”研究，集中在体系结构和云网络系统方面。具有丰富的实际系统部署与操作经验，曾作为微软亚洲研究院“铸星计划”学者，腾讯网络平台部研究负责人，阿里云与基础设施部门荣誉顾问，参与支持云网络、存储与计算网络的研发与部署工作。发表论文包括SIGCOMM，OSDI，NSDI，ATC，EuroSYS, FAST, CoNEXT等会议，并获得2016，2019年江苏省科技进步一等奖。

论坛共同主席

郑晓龙

华为数通DCN实验室主任、华为DCN领域科学家

2016年获清华大学自动化系博士学位，2011年获清华大学自动化系学士学位。研究兴趣主要有数据中心网络架构，RDMA网络，大模型训推网络，发表SCI/顶会（如SIGCOMM)论文十余篇，专利数十项，曾获清华大学优秀博士论文，清华大学优秀毕业生。

论坛讲者

张亮

华为数据通信产品线研究部部长

2010年东南大学博士毕业入职华为，现任数据通信产品线研究部部长一职。负责WLAN&以太领域、网络AI算法领域、IP协议与转发领域竞争力提升。在SIGCOMM、KDD等会议/期刊发表多篇论文，完成专著《事件挖掘的理论算法及应用》，发明专利50+。

报告题目：网络技术新篇章：为AI大模型训练与推理构建高效平台

摘要：AI智算，尤其是大语言模型业务的井喷式发展，对网络的性能和规模等方面的要求越来越高。随着大模型进入万亿模型时代，模型训练对算力的需求也急剧增加，集群规模达到万卡甚至十万卡级别；而多模态模型的出现，也推动智算推理业务从单机推理走向多机推理。这些变化对网络提出了一系列的要求和挑战。本次论坛将聚焦于超万卡集群网络所面临的业界挑战难题，与大家共同探讨如何优化网络系统以支持AI大模型的高效训练。

李兆耕

百度智能云AI网络技术负责人

熟悉RDMA、智能网卡、数据中心网络等多个技术领域，在云计算和AI系统网络核心技术方面的设计研发经验丰富。现任百度智能云AI网络技术负责人。

报告题目：大规模GPU集群互联的挑战与应对

摘要：大模型的发展推动了万卡甚至十万卡大规模GPU集群的需求，网络互联已成为GPU集群中的核心技术问题。在构建大规模GPU集群的实践中，需要面对GPU并行计算下特有的性能、成本与稳定性挑战，这也导致了GPU互联网络和传统数据中心网络之间越来越大的差异。在本报告中，我们将详细阐述这些挑战以及当下的应对方法，并讨论未来可能的演进方向。

夏寅贲

腾讯首席网络架构师

主导腾讯星脉网络系统设计研发，构建起从自研算力网卡、交换机、自研协议、通信库到端到端AI集群仿真、分析、运维的高性能网络系统，支撑腾讯多个数万卡AI集群的快速建设与高效运行。

报告题目：ETH-X以太超节点：AI网络新特征、算力突破新探索

摘要：AI大模型在Scaling Law、Long Sequecne等需求的驱动下，对算力有着不断提高的要求。但当前技术在单芯片算力提升以及Scale Out扩展集群算力方面都遇到了相应的技术约束。腾讯牵头推动产业合作以超大带宽以太网scale up方式互联GPU构成HBD（High Bandwidth Domain）探索突破算力瓶颈。本报告介绍ODCC ETH-X项目，以太网技术构建大带宽、弹性可扩展 GPU-GPU HBD，同时构建大带宽、大容量GPU-CPU/Memory Pool扩展内存方案。

付斌章

阿里云研究员

高性能计算专委会执行委员，阿里云高性能网络业务负责人，主导了阿里云自研高性能网卡和通信库软件的研发，以及超大规模RDMA（虚拟）网络的建设、交付和运营，在ISCA、SIGCOMM等行业旗舰会议发表论文20余篇。

报告题目：高通量以太网：智算网络的挑战和体系建设

摘要：随着人工智能业务的高速发展，以RDMA为代表的Scale-out网络以及以NVLINK为代表的Scale-up网络均面临着新的挑战。针对这个问题，本次演讲将从通义大模型为代表的业务需求出发，结合网络领域的最新研究成果，讨论基于开放以太网建设下一代智算网络的挑战和机遇。

江卓

CNCC | 超万卡大模型集群网络系统，现状、机遇与挑战?

正文

请到「今天看啥」查看全文