专栏名称: 张小北
编剧,太空堡垒预告片工作室联合创始人 工作事宜请联系邮箱:[email protected]
目录
相关文章推荐
张小北  ·  转发微博-20241104103752 ·  昨天  
张小北  ·  转发微博-20241031163143 ·  5 天前  
51好读  ›  专栏  ›  张小北

转发微博-20241103230120

张小北  · 微博  · 电影  · 2024-11-03 23:01

正文

2024-11-03 23:01

转发微博
#模型时代# 大模型训练算力即将遇到物理瓶颈?
OpenAI CEO 山姆·奥特曼前两天参加Reddit网友访谈时说,实现AGI靠现有硬件就可以做到。不过刚才看到Epoch AI的一项研究又说,大模型训练实际上面临严峻的物理瓶颈。
如果用类比来理解,就是现在训练大型AI模型就像在建造越来越大的工厂。工厂越大,需要的工人(GPU)就越多,而工人之间需要不断交换信息才能协调工作。但是,工厂规模增长带来了两个实际问题:
1、第一个问题是效率问题。当工厂太大时,工人们花在交流上的时间可能比实际工作还多。具体到AI训练,当模型达到一定规模(2e28 FLOP)时,GPU们花在数据传输上的时间会比实际计算还多,效率就大大降低了。这就像工厂里的工人都在开会,没人干活。

2、第二个问题是物理限制。信息传递总有延迟,就像两个工人隔得再近,说话声音传到对方耳朵也需要时间。这个延迟看起来很小,但在超大规模训练时(2e31 FLOP)会变成无法逾越的障碍,这就是所谓的"延迟墙"。

而目前最大的AI模型训练(比如GPT-4)用了大约10^25 FLOP的计算量。而按现在这个发展速度,大约3年后,新的AI模型就会碰到效率问题。再发展下去,甚至会撞上物理限制的"墙"。

不知道,奥特曼说的,和Epoch AI说的,到底谁对?或者是在撞上物理极限之前,AGI就能实现?(这种可能性应该小)

用Claude大致总结了一下这个论文,有兴趣可以读原文(epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop)

***
1、从2010年到2024年,AI训练所需的算力呈现惊人的增长速度,每年增长4-5倍,远远超出摩尔定律的预期。这种增长速度令人瞩目:最初的Transformer模型在2017年只需要8个GPU训练12小时,而到了2024年,Llama 3.1 405B的训练需要动用16000个GPU,持续整整两个月。这种指数级的增长势头似乎势不可挡,但研究发现,这条增长曲线即将遭遇物理世界的硬约束。

2、目前,想要扩大训练规模,无非是走三条路:延长训练时间、增加GPU数量、使用更强大的GPU。但每条路都存在着根本性的限制。训练时间很难突破6个月,因为硬件和软件都在快速迭代,超过这个时间,模型发布时就已经显得落后了。而增加GPU数量,虽然是目前主要的扩展方向,却带来了数据移动的巨大挑战。至于使用更强大的GPU,则受限于硬件发展速度,特别是延迟改善的速度实在太慢。

3、研究发现了两个关键的物理瓶颈,它们就像两堵墙,挡在了AI发展的道路上。第一堵墙是效率瓶颈,将在训练算力达到2e28 FLOP时出现。为什么会出现这个瓶颈?这要从GPU的工作原理说起。

4、在GPU内部,数据需要在高带宽内存和计算核心之间不断移动。当我们进行大规模矩阵运算时,计算时间远超数据移动时间,效率很高。但随着模型规模增大,这些矩阵必须切片成更小的块来处理。这就像一个大工厂被迫把生产线切分成许多小作坊,结果是运送零件的时间反而超过了加工时间。

5、更棘手的是GPU集群之间的通信问题。现代大模型训练需要数千个GPU协同工作,它们之间必须频繁通信和同步。有些任务甚至要求每做1-2次矩阵运算就需要同步一次。随着集群规模增大,这种通信开销呈指数级增长。

6、第二堵墙是延迟墙,这是更加根本的物理限制,将在2e31 FLOP处形成绝对屏障。这个限制可以用严格的数学证明:假设我们把训练时间限制在3个月内,按照Chinchilla法则,训练所需的梯度步骤数会随着参数量增加而增加。这意味着模型越大,每个梯度步骤能用的时间就越少。

7、但是,GPU间通信有着物理延迟下限,目前大约是9微秒。以一个典型的120层模型为例,考虑到每层需要的矩阵乘法,以及前向和反向传播,仅仅是等待通信的时间就需要4×120×9微秒。这个延迟就像宇宙中的光速限制一样,是物理规律决定的,无法通过简单地堆积硬件来解决。

8、面对这些瓶颈,研究团队提出了两个可能的突破方向。一是更激进的批量处理优化,最新研究表明,通过优化batch size的扩展策略,可能将极限推迟到3e30 FLOP。二是在模型架构上寻求创新,比如控制模型深度增长,优化层间数据传输,甚至探索全新的并行计算方案。

9、按照当前的发展速度,大约3年后,也就是2027年左右,我们就会触及第一个效率瓶颈。这个时间窗口留给产业界的准备时间并不多。这可能会改变目前AI领域军备竞赛般的扩张态势,推动行业从单纯追求规模转向追求效率的提升。

10、这项研究给我们的启示:AI的发展并非可以无限线性扩展,物理定律给我们划定了边界。但历史告诉我们,正是在触及极限的时候,往往会催生突破性的创新。就像量子力学的诞生来自于对经典物理极限的探索,这个"天花板"可能会推动我们发现全新的技术范式。