专栏名称: 芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
目录
相关文章推荐
51好读  ›  专栏  ›  芯东西

公开课预告:大模型时代的智算GPU集群|阿里云智能集团智算集群产品专家陈祎主讲

芯东西  · 公众号  ·  · 2024-12-13 09:58

正文

请到「今天看啥」查看全文


智算集群已成为大模型基建军备竞赛的标配。


在大模型训练场景下,随着模型参数规模从千亿向万亿迈进,算力需求激增。同时,随着大模型在不同领域的应用落地,推理算力需求也迎来爆发式增长。据中信建设证券数据显示,2024年至2027年全球大模型推理的峰值算力需求量的年复合增长率为113%,远高于训练的78%。


为了应对不断增长的算力需求,全球各地智算集群建设正在如火如荼地进行之中,且规模也从早期的千卡、万卡快速增长到十万卡,甚至向百万卡级别发展。但是,集群规模的线性扩展并不直接等同于算力的线性提升。智算集群要发挥出极致有效的算力,需要从卡间和节点间的互联网络、软硬件适配、海量数据处理策略、运维保障等多个方面进行协同优化。


12月13日19:30 智猩猩智算集群公开课第6期 将开讲,由 阿里云智能集团智算集群产品专家陈祎 主讲,主题为《 大模型时代的智算GPU集群 》。


本次公开课,陈祎老师将从产业一线的角度,分享AI技术演进下的GPU集群需求变化,并从Scale Up、Scale Out两个层面,阐述集群算力的扩展路径。之后,陈祎老师还将重点讲解大规模GPU集群的性能优化方法,以及稳定性挑战和优化实现,并对AI基础设施2025年的发展趋势进行展望。



第6期信息


主 题

《大模型时代的智算GPU集群》

提 纲


1、AI技术演进催生GPU集群的需求

2、集群算力扩展:Scale Up vs. Scale Out

3、大规模GPU集群性能优化

4、集群的稳定性挑战与优化实现

5、AI基础设施的2025展望


主 讲 人


陈祎,阿里云智能集团智算集群产品专家 ,负责阿里云AI智算场景的异构计算集群产品规划及设计


直 播 时 间


12月13日19:30-20:30


报名方式


有公开课直播观看需求的朋友,可以添加小助手“瑞秋”进行报名。已添加过“瑞秋”的老朋友,可以给“瑞秋”私信,发送“ 智算集群06 ”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。








请到「今天看啥」查看全文