公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

芯东西 · 公众号 · · 2024-12-04 19:14

正文

请到「今天看啥」查看全文

10月起，智猩猩芯片与算力教研组全新策划推出「 智猩猩智算集群公开课 」，聚焦集群构建、互联网络、算力调度、存储等关键技术。

目前，「智猩猩智算集群公开课」前四期已顺利完结。腾讯专有云首席架构师方天戟、矩向科技CEO黄朝波、云脉芯联产品总监孙伟、益思芯科技解决方案副总裁唐杰四位主讲人，分别以《智算集群技术概述》、《智算中心融合算力调度》、《智算集群网络互连技术创新应用与展望》、《智算中心 AI Scale-Up 网络技术》为主题，进行了直播讲解。

12月4日19:30 ，智猩猩智算集群公开课第5期将开讲，由 中国移动研究院网络与IT技术研究所技术经理李锴 主讲，主题为《 OISA构建开放高性能GPU卡间互联体系 》。

大模型的爆发，对智能算力的需求指数级提升，集群规模迈入万卡、十万卡级别。大模型的训练严重依赖集群内GPU之间频繁的数据交互，带来的庞大的通信开销导致集群的有效算力无法随GPU数量增加而线性增长，这也意味着互联性能将是决定集群规模扩展和性能提升的关键所在。

智算集群互联体系的构建需要GPU芯片、交换机、网卡、网络协议等软硬件的紧密结合，技术体系复杂，难度极高。

为了应对GPU卡间互联的带宽和时延要求，中国移动联合产业合作伙伴共同发布OISA协议，旨在打造一个高效、智能、灵活开放的GPU卡间互联体系。OISA采用全向连接设计，能够确保大规模GPU之间的对等通信；同时，引入智能感知设计，通过定义流量感知标签，并结合流控和重传机制，优化数据传输效率。在协议层面，OISA采用统一报文格式、多语义融合、多层次流控和重传以及集合通信加速等四大关键技术，能够实现高速、低时延、无损和高可靠的GPU通信。

本次公开课，李铠老师首先会介绍智算及GPU卡间互联的发展背景，并进一步分析为什么要重塑GPU卡间互联体系。之后，李铠老师将着重讲解如何利用OISA协议实现高效的GPU卡间互联，并分享当前OISA的最新进展及下一步计划。

第5期信息

主题

《OISA构建开放高性能GPU卡间互联体系》

提纲

1、智算及GPU卡间互联背景

2、为什么要重塑GPU卡间互联体系

3、如何通过OISA实现高效互联能力

4、当前OISA进展及下一步计划

主讲人

李锴，中国移动研究院网络与IT技术研究所技术经理 ，主要职责集中在构建通用和智能算力技术体系、NFV网络基础设施以及先进计算等关键领域。致力于解决数据中心内部处理器、加速器、存储器等核心组件之间的效率提升问题，特别强调通过采用开放的互联技术来提高智算中心GPU卡间的数据传输效率和性能。以推动新型智算中心的创新，实现更高效、更灵活的数据处理。

直播时间

12月4日19:30-20:30

报名方式

有公开课直播观看需求的朋友，可以添加小助手“瑞秋”进行报名。已添加过“瑞秋”的老朋友，可以给“瑞秋”私信，发送“ 智算集群05 ”进行报名。对于通过报名的朋友，之后将邀请入群进行观看和交流。