转发微博-20241103230120_张小北的专栏文章_微信文章

转发微博

#模型时代# 大模型训练算力即将遇到物理瓶颈？
OpenAI CEO 山姆·奥特曼前两天参加Reddit网友访谈时说，实现AGI靠现有硬件就可以做到。不过刚才看到Epoch AI的一项研究又说，大模型训练实际上面临严峻的物理瓶颈。
如果用类比来理解，就是现在训练大型AI模型就像在建造越来越大的工厂。工厂越大，需要的工人（GPU）就越多，而工人之间需要不断交换信息才能协调工作。但是，工厂规模增长带来了两个实际问题：
1、第一个问题是效率问题。当工厂太大时，工人们花在交流上的时间可能比实际工作还多。具体到AI训练，当模型达到一定规模(2e28 FLOP)时，GPU们花在数据传输上的时间会比实际计算还多，效率就大大降低了。这就像工厂里的工人都在开会，没人干活。

2、第二个问题是物理限制。信息传递总有延迟，就像两个工人隔得再近，说话声音传到对方耳朵也需要时间。这个延迟看起来很小，但在超大规模训练时（2e31 FLOP）会变成无法逾越的障碍，这就是所谓的"延迟墙"。

而目前最大的AI模型训练（比如GPT-4）用了大约10^25 FLOP的计算量。而按现在这个发展速度，大约3年后，新的AI模型就会碰到效率问题。再发展下去，甚至会撞上物理限制的"墙"。

不知道，奥特曼说的，和Epoch AI说的，到底谁对？或者是在撞上物理极限之前，AGI就能实现？（这种可能性应该小）

用Claude大致总结了一下这个论文，有兴趣可以读原文（epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop）

***
1、从2010年到2024年，AI训练所需的算力呈现惊人的增长速度，每年增长4-5倍，远远超出摩尔定律的预期。这种增长速度令人瞩目：最初的Transformer模型在2017年只需要8个GPU训练12小时，而到了2024年，Llama 3.1 405B的训练需要动用16000个GPU，持续整整两个月。这种指数级的增长势头似乎势不可挡，但研究发现，这条增长曲线即将遭遇物理世界的硬约束。

2、目前，想要扩大训练规模，无非是走三条路：延长训练时间、增加GPU数量、使用更强大的GPU。但每条路都存在着根本性的限制。训练时间很难突破6个月，因为硬件和软件都在快速迭代，超过这个时间，模型发布时就已经显得落后了。而增加GPU数量，虽然是目前主要的扩展方向，却带来了数据移动的巨大挑战。至于使用更强大的GPU，则受限于硬件发展速度，特别是延迟改善的速度实在太慢。

3、研究发现了两个关键的物理瓶颈，它们就像两堵墙，挡在了AI发展的道路上。第一堵墙是效率瓶颈，将在训练算力达到2e28 FLOP时出现。为什么会出现这个瓶颈？这要从GPU的工作原理说起。

4、在GPU内部，数据需要在高带宽内存和计算核心之间不断移动。当我们进行大规模矩阵运算时，计算时间远超数据移动时间，效率很高。但随着模型规模增大，这些矩阵必须切片成更小的块来处理。这就像一个大工厂被迫把生产线切分成许多小作坊，结果是运送零件的时间反而超过了加工时间。

5、更棘手的是GPU集群之间的通信问题。现代大模型训练需要数千个GPU协同工作，它们之间必须频繁通信和同步。有些任务甚至要求每做1-2次矩阵运算就需要同步一次。随着集群规模增大，这种通信开销呈指数级增长。

6、第二堵墙是延迟墙，这是更加根本的物理限制，将在2e31 FLOP处形成绝对屏障。这个限制可以用严格的数学证明：假设我们把训练时间限制在3个月内，按照Chinchilla法则，训练所需的梯度步骤数会随着参数量增加而增加。这意味着模型越大，每个梯度步骤能用的时间就越少。

7、但是，GPU间通信有着物理延迟下限，目前大约是9微秒。以一个典型的120层模型为例，考虑到每层需要的矩阵乘法，以及前向和反向传播，仅仅是等待通信的时间就需要4×120×9微秒。这个延迟就像宇宙中的光速限制一样，是物理规律决定的，无法通过简单地堆积硬件来解决。

8、面对这些瓶颈，研究团队提出了两个可能的突破方向。一是更激进的批量处理优化，最新研究表明，通过优化batch size的扩展策略，可能将极限推迟到3e30 FLOP。二是在模型架构上寻求创新，比如控制模型深度增长，优化层间数据传输，甚至探索全新的并行计算方案。

9、按照当前的发展速度，大约3年后，也就是2027年左右，我们就会触及第一个效率瓶颈。这个时间窗口留给产业界的准备时间并不多。这可能会改变目前AI领域军备竞赛般的扩张态势，推动行业从单纯追求规模转向追求效率的提升。

10、这项研究给我们的启示：AI的发展并非可以无限线性扩展，物理定律给我们划定了边界。但历史告诉我们，正是在触及极限的时候，往往会催生突破性的创新。就像量子力学的诞生来自于对经典物理极限的探索，这个"天花板"可能会推动我们发现全新的技术范式。

转发微博-20241103230120

正文

请到「今天看啥」查看全文

2024-11-03 23:01
本条微博链接

请到「今天看啥」查看全文