转发微博
#模型时代#
大模型训练算力即将遇到物理瓶颈?
OpenAI CEO 山姆·奥特曼前两天参加Reddit网友访谈时说,实现AGI靠现有硬件就可以做到。不过刚才看到Epoch AI的一项研究又说,大模型训练实际上面临严峻的物理瓶颈。
如果用类比来理解,就是现在训练大型AI模型就像在建造越来越大的工厂。工厂越大,需要的工人(GPU)就越多,而工人之间需要不断交换信息才能协调工作。但是,工厂规模增长带来了两个实际问题:
1、第一个问题是效率问题。当工厂太大时,工人们花在交流上的时间可能比实际工作还多。具体到AI训练,当模型达到一定规模(2e28 FLOP)时,GPU们花在数据传输上的时间会比实际计算还多,效率就大大降低了。这就像工厂里的工人都在开会,没人干活。
2、第二个问题是物理限制。信息传递总有延迟,就像两个工人隔得再近,说话声音传到对方耳朵也需要时间。这个延迟看起来很小,但在超大规模训练时(2e31 FLOP)会变成无法逾越的障碍,这就是所谓的"延迟墙"。
而目前最大的AI模型训练(比如GPT-4)用了大约10^25 FLOP的计算量。而按现在这个发展速度,大约3年后,新的AI模型就会碰到效率问题。再发展下去,甚至会撞上物理限制的"墙"。
不知道,奥特曼说的,和Epoch AI说的,到底谁对?或者是在撞上物理极限之前,AGI就能实现?(这种可能性应该小)
用Claude大致总结了一下这个论文,有兴趣可以读原文(epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop)
***
1、从2010年到2024年,AI训练所需的算力呈现惊人的增长速度,每年增长4-5倍,远远超出摩尔定律的预期。这种增长速度令人瞩目:最初的Transformer模型在2017年只需要8个GPU训练12小时,而到了2024年,Llama 3.1 405B的训练需要动用16000个GPU,持续整整两个月。这种指数级的增长势头似乎势不可挡,但研究发现,这条增长曲线即将遭遇物理世界的硬约束。
2、目前,想要扩大训练规模,无非是走三条路:延长训练时间、增加GPU数量、使用更强大的GPU。但每条路都存在着根本性的限制。训练时间很难突破6个月,因为硬件和软件都在快速迭代,超过这个时间,模型发布时就已经显得落后了。而增加GPU数量,虽然是目前主要的扩展方向,却带来了数据移动的巨大挑战。至于使用更强大的GPU,则受限于硬件发展速度,特别是延迟改善的速度实在太慢。
3、研究发现了两个关键的物理瓶颈,它们就像两堵墙,挡在了AI发展的道路上。第一堵墙是效率瓶颈,将在训练算力达到2e28 FLOP时出现。为什么会出现这个瓶颈?这要从GPU的工作原理说起。
4、在GPU内部,数据需要在高带宽内存和计算核心之间不断移动。当我们进行大规模矩阵运算时,计算时间远超数据移动时间,效率很高。但随着模型规模增大,这些矩阵必须切片成更小的块来处理。这就像一个大工厂被迫把生产线切分成许多小作坊,结果是运送零件的时间反而超过了加工时间。
5、更棘手的是GPU集群之间的通信问题。现代大模型训练需要数千个GPU协同工作,它们之间必须频繁通信和同步。有些任务甚至要求每做1-2次矩阵运算就需要同步一次。随着集群规模增大,这种通信开销呈指数级增长。
OpenAI CEO 山姆·奥特曼前两天参加Reddit网友访谈时说,实现AGI靠现有硬件就可以做到。不过刚才看到Epoch AI的一项研究又说,大模型训练实际上面临严峻的物理瓶颈。
如果用类比来理解,就是现在训练大型AI模型就像在建造越来越大的工厂。工厂越大,需要的工人(GPU)就越多,而工人之间需要不断交换信息才能协调工作。但是,工厂规模增长带来了两个实际问题:
1、第一个问题是效率问题。当工厂太大时,工人们花在交流上的时间可能比实际工作还多。具体到AI训练,当模型达到一定规模(2e28 FLOP)时,GPU们花在数据传输上的时间会比实际计算还多,效率就大大降低了。这就像工厂里的工人都在开会,没人干活。
2、第二个问题是物理限制。信息传递总有延迟,就像两个工人隔得再近,说话声音传到对方耳朵也需要时间。这个延迟看起来很小,但在超大规模训练时(2e31 FLOP)会变成无法逾越的障碍,这就是所谓的"延迟墙"。
而目前最大的AI模型训练(比如GPT-4)用了大约10^25 FLOP的计算量。而按现在这个发展速度,大约3年后,新的AI模型就会碰到效率问题。再发展下去,甚至会撞上物理限制的"墙"。
不知道,奥特曼说的,和Epoch AI说的,到底谁对?或者是在撞上物理极限之前,AGI就能实现?(这种可能性应该小)
用Claude大致总结了一下这个论文,有兴趣可以读原文(epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop)
***
1、从2010年到2024年,AI训练所需的算力呈现惊人的增长速度,每年增长4-5倍,远远超出摩尔定律的预期。这种增长速度令人瞩目:最初的Transformer模型在2017年只需要8个GPU训练12小时,而到了2024年,Llama 3.1 405B的训练需要动用16000个GPU,持续整整两个月。这种指数级的增长势头似乎势不可挡,但研究发现,这条增长曲线即将遭遇物理世界的硬约束。
2、目前,想要扩大训练规模,无非是走三条路:延长训练时间、增加GPU数量、使用更强大的GPU。但每条路都存在着根本性的限制。训练时间很难突破6个月,因为硬件和软件都在快速迭代,超过这个时间,模型发布时就已经显得落后了。而增加GPU数量,虽然是目前主要的扩展方向,却带来了数据移动的巨大挑战。至于使用更强大的GPU,则受限于硬件发展速度,特别是延迟改善的速度实在太慢。
3、研究发现了两个关键的物理瓶颈,它们就像两堵墙,挡在了AI发展的道路上。第一堵墙是效率瓶颈,将在训练算力达到2e28 FLOP时出现。为什么会出现这个瓶颈?这要从GPU的工作原理说起。
4、在GPU内部,数据需要在高带宽内存和计算核心之间不断移动。当我们进行大规模矩阵运算时,计算时间远超数据移动时间,效率很高。但随着模型规模增大,这些矩阵必须切片成更小的块来处理。这就像一个大工厂被迫把生产线切分成许多小作坊,结果是运送零件的时间反而超过了加工时间。
5、更棘手的是GPU集群之间的通信问题。现代大模型训练需要数千个GPU协同工作,它们之间必须频繁通信和同步。有些任务甚至要求每做1-2次矩阵运算就需要同步一次。随着集群规模增大,这种通信开销呈指数级增长。