专栏名称: 之江实验室
之江实验室官方公众号。之江实验室由浙江省政府、浙江大学、阿里巴巴集团共同出资打造,以网络信息、人工智能为研究方向。以国家目标和战略需求为导向,以重大科技任务攻关和大型科技基础设施建设为主线,打造一批世界一流的基础学科群。
目录
相关文章推荐
重庆市文化和旅游发展委员会  ·  山城宝岛“年”在一起 台湾“年味”来了 ·  14 小时前  
重庆市文化和旅游发展委员会  ·  山城宝岛“年”在一起 台湾“年味”来了 ·  14 小时前  
余杭发布  ·  医疗标本低空运输!余杭获全国优秀! ·  16 小时前  
余杭发布  ·  来余杭,7天免费住!申请方法→ ·  2 天前  
51好读  ›  专栏  ›  之江实验室

何水兵:面向大模型的存算技术,未来系统发展新趋势

之江实验室  · 公众号  ·  · 2024-10-08 16:43

正文



在即将于今年10月24-26日在浙江横店举办的CNCC2024上,138个技术论坛覆盖了人工智能、安全、AI+、网络、计算+、系统软件、教育、芯片等34个专业领域,推动不同领域的交叉融合,为各界专业人士提供了广泛的专业内容。包括国际知名学者、两院院士、产学研各界代表在内的800余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。


本专题力邀CNCC2024技术论坛主席亲自撰稿,分享真知灼见,欢迎走进CNCC,领略计算领域专业大观魅力!




本期特别嘉宾:

何水兵 之江实验室副主任



作者:CNCC2024【面向大模型的存算技术】论坛主席 何水兵




大模型赋能各行各业




图1:大模型赋能各行各业


随着ChatGPT、Stable Diffusion 等新型AI现象级应用的出现,通用AI进入了大模型时代。大模型已经出现在人们生活的方方面面,如自然语言处理、计算机视觉、推荐系统等等(图1),极大地便利了人们的生活。垂域应用和大模型结合的创新成果如雨后春笋般快速涌现,大模型在社会生活方方面面展现出了前所未有的威力。




大模型训推面临的挑战




大模型的快速发展离不开计算机硬件平台和软件系统(简称大模型训推系统)的大力支撑。高效的训推系统能够有效应对大模型的运算能力(算力)需求,提升应用运算效率,降低用户成本,从而助力大模型技术的突破。在“数据、算法、算力”这三架大模型发展的马车之中,算力是整个大模型发展的基座。然而,随着大模型参数量与数据集规模的井喷式增长,当前大模型训推系统面临着“算力、存储、网络和可靠性”等方面的挑战。


- 大模型训推面临巨大的算力需求:目前大模型层数较深且计算复杂,需要消耗巨大的算力。OpenAl的数据显示,从2012年到2020年,其算力消耗平均每3.4个月就翻倍一次,8年间算力增长了30万倍[1](如图2)。2023年3月推出的多模态大模型GPT-4, 训练时的算力需求甚至达到了惊人的每秒2.15×1024 FLOPS[2]。不断增长的算力需求,使得AI计算中心面临着前所未有的算力挑战。


图2:2012年以来算力需求增长了超过30万倍

- 大模型训练面临巨大的存储挑战:大模型的训练具有参数众多并且输入数据集较大的特点。例如, GPT-4 模型具有1.8 万亿的模型参数且需要13万亿的Token作为输入数据集[2]。大模型训推系统需要高效的存储系统来存储和读取这些大量的数据。然而,AI模型的数据大小呈现出逐年上升的趋势 [3](如图3),特别是在大模型出现后,其数据量相比于传统的AI模型有着显著的上升,与此同时,存储硬件性能增长的速度远滞后于GPU算力提升的速度,因此,存储访问日益成为一些AI应用的性能瓶颈。例如,微软的数据中心报告称,近年来GPU性能增长了125x,而Azure存储系统的I/O带宽仅增长了12x,这导致存储系统提供的I/O带宽上限仅为模型负载实际所需的60% [4]。


图3:AI模型增长趋势


- 大模型训推系统具有较高网络传输需求:由于单一计算节点无法满足大模型的大规模算力需求,目前AI计算中心往往利用网络将多个GPU服务器连接起来进行分布式训练与推理。在分布式训推中,数据需要在多个机器间进行通信。如果网络传输速度较慢或不稳定,整个GPU系统的计算效率将会极大降低。如图4所示,较差的网络传输往往能降低一半的模型训练效率,对宝贵的硬件资源造成极大的浪费[5]。


图4:网络通信限制模型的训练性能


- 大模型训练具有较高的可靠性需求:由于多设备的参与以及长时间的运行,大模型应用的训练往往面临较高的出错率。例如,OPT-175B模型在训练的过程中使用了992张A100 GPU,并在两个月的训练时间内故障超过110次[6]。类似的现象同样出现在BLOOM模型的训练过程中[7]。频繁的故障带来硬件资源的浪费,增加应用执行的成本,因此需要高效的系统故障恢复机制,保证训练的高效持续执行。


[ 1] Mehonic A, Kenyon A J. Brain-inspired computing needs a master plan[J]. Nature, 2022, 604(7905): 255-260.

[2] https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

[3] https://indiaai.gov.in/article/the-future-of-large-language-models-llms-strategy-opportunities-and-challenges

[4] Zhao, Hanyu, et al. "Silod: A co-design of caching and scheduling for deep learning clusters." Proceedings of the Eighteenth European Conference on Computer Systems. 2023

[5] Wang G, Qin H, Jacobs S A, et al. ZeRO++: Extremely Efficient Collective Communication for Giant Model Training[J]. arXiv preprint arXiv:2306.10209, 2023.

[6] Zhang S, Roller S, Goyal N, et al. Opt: Open pre-trained transformer language models[J]. arXiv preprint arXiv:2205.01068, 2022.

[7] https://github.com/bigscience-workshop/bigscience/blob/master/train/tr11-176B-ml/chronicles.md

[8] https://mp.weixin.qq.com/s/maLIhnlaLQOgjW-LE8PM6A

面向大模型的新型存算技术


为了解决上述挑战,我们迫切需要寻求新的存算技术,从存储、计算、网络等诸多方面对现有大模型训推系统进行升级改造。按照系统架构的不同,可分为两种思路:一是对经典冯·诺伊曼架构下的大模型训推系统进行优化,二是探索开发基于新型存算一体架构的大模型存算系统。上述两种架构的对比如图5所示。


图5:传统冯·诺伊曼架构 v.s. 新型存算一体架构


(1) 优化经典架构

为了满足前所未有的算力和存储需求,现有AI计算中心一般采用分布式架构(如图6),将多个处理器、加速器或者存储设备能力聚合起来,进行大模型的训练和推理[8]。目前涌现出了面向大模型的分布式计算、分布式存储以及新型存储技术等方面的研究,重点针对大模型的特有计算特征和访存模式构建高效的底层计算调度系统、存储系统、内存系统等。此外,高效的网络通信技术也是当前大模型训推系统研究的热点问题。







请到「今天看啥」查看全文


推荐文章
重庆市文化和旅游发展委员会  ·  山城宝岛“年”在一起 台湾“年味”来了
14 小时前
重庆市文化和旅游发展委员会  ·  山城宝岛“年”在一起 台湾“年味”来了
14 小时前
余杭发布  ·  医疗标本低空运输!余杭获全国优秀!
16 小时前
余杭发布  ·  来余杭,7天免费住!申请方法→
2 天前
孤读先生  ·  嫁人之前,要想清楚这5个问题
7 年前
酱子工厂  ·  比春晚还好看,牛上天了!
7 年前