专栏名称: 芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
目录
相关文章推荐
中工国际  ·  媒体关注|冰雪经济催生新机遇 ... ·  10 小时前  
普象工业设计小站  ·  牛逼!就因为它,已经看不上2000元的飞*浦了! ·  2 天前  
中国城市规划  ·  新春征集 | ... ·  4 天前  
51好读  ›  专栏  ›  芯东西

公开课预告:大规模异构GPU集群的互联、运维与调度|基流科技技术负责人敬阳主讲

芯东西  · 公众号  ·  · 2024-12-18 12:18

正文

智算集群是打造大模型的标配。为了支撑更多、更大规模的模型训练与推理,智算集群建设速度和规模正在飞速增长。


NVIDIA GPU是构建智算集群的首选计算芯片,但是受产能不足、国际环境等复杂因素的影响,很难实现大规模采购,甚至一卡难求。这给智算集群的构建带来了一定的挑战,但也给国产GPU厂商的产品应用落地提供了机会。


不同厂家的GPU在架构、通信库、软件栈方面均存在巨大差异,如何实现不同架构GPU之间的互联互通、高效稳定的通信,以及有效的算力聚合与调度,是异构GPU集群构建面临的巨大挑战。


为了应对上述问题,基流科技构建了面向异构GPU集群的超互联解决方案Helios,以及算力基础设施监控运维平台和大规模异构GPU算力调度平台,能够实现智算集群中大规模异构GPU之间的高效互联互通、运维管理和算力调度。


12月19日19:30 智猩猩智算集群公开课第7期 将开讲,由 基流科技技术负责人敬阳主讲,主题为 大规模异构GPU集群的互联、运维与调度 》。


本次公开课,敬阳老师首先会介绍大模型算力基础设施的构成,并分析大规模异构GPU互联的发展现状以及面临的挑战。之后,敬阳老师将对基流科技面向异构GPU集群的超互联解决方案Helios,以及大规模异构GPU集群的监控运维和算力调度平台的设计与实现进行着重讲解。最后,敬阳老师还将展示基流科技在智算集群构建中的实践案例。



第7期信息


主 题

《大规模异构GPU集群的互联、运维与调度》

提 纲


1、大模型算力基础设施概览

2、大规模异构GPU互联发展现状与挑战

3、面向异构GPU集群的超互联解决方案Helios解析

4、大规模异构GPU集群的监控运维与算力调度

5、实践案例


主 讲 人


敬阳,基流科技技术负责人 ,北京航空航天大学硕士,高级工程师职称,北京基流科技核心骨干。参与编写多项国际/国内发明专利和实用新型专利。曾任北京京东科技有限公司SDN高级研发工程师、Juniper亚太网络研发工程师等职位。在基流科技一起牵头大规模异构GPU的NCCL互联优化创新、RDMA网络的容错增强,相关研发成果已成功在万卡、4千卡及多个2千卡、千卡环境稳定应用。


直 播 时 间







请到「今天看啥」查看全文