专栏名称: 张小北
编剧,太空堡垒预告片工作室联合创始人 工作事宜请联系邮箱:[email protected]
目录
相关文章推荐
中国电影资料馆  ·  “2025挪威女性电影专题”即将开幕! ·  3 天前  
中央戏剧学院就业创业指导中心  ·  米哈游2025春季校园招聘 ·  2 天前  
51好读  ›  专栏  ›  张小北

转发微博-20241103230120

张小北  · 微博  · 电影  · 2024-11-03 23:01

正文

2024-11-03 23:01

转发微博
#模型时代# 大模型训练算力即将遇到物理瓶颈?
OpenAI CEO 山姆·奥特曼前两天参加Reddit网友访谈时说,实现AGI靠现有硬件就可以做到。不过刚才看到Epoch AI的一项研究又说,大模型训练实际上面临严峻的物理瓶颈。
如果用类比来理解,就是现在训练大型AI模型就像在建造越来越大的工厂。工厂越大,需要的工人(GPU)就越多,而工人之间需要不断交换信息才能协调工作。但是,工厂规模增长带来了两个实际问题:
1、第一个问题是效率问题。当工厂太大时,工人们花在交流上的时间可能比实际工作还多。具体到AI训练,当模型达到一定规模(2e28 FLOP)时,GPU们花在数据传输上的时间会比实际计算还多,效率就大大降低了。这就像工厂里的工人都在开会,没人干活。

2、第二个问题是物理限制。信息传递总有延迟,就像两个工人隔得再近,说话声音传到对方耳朵也需要时间。这个延迟看起来很小,但在超大规模训练时(2e31 FLOP)会变成无法逾越的障碍,这就是所谓的"延迟墙"。

而目前最大的AI模型训练(比如GPT-4)用了大约10^25 FLOP的计算量。而按现在这个发展速度,大约3年后,新的AI模型就会碰到效率问题。再发展下去,甚至会撞上物理限制的"墙"。

不知道,奥特曼说的,和Epoch AI说的,到底谁对?或者是在撞上物理极限之前,AGI就能实现?(这种可能性应该小)

用Claude大致总结了一下这个论文,有兴趣可以读原文(epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop)

***
1、从2010年到2024年,AI训练所需的算力呈现惊人的增长速度,每年增长4-5倍,远远超出摩尔定律的预期。这种增长速度令人瞩目:最初的Transformer模型在2017年只需要8个GPU训练12小时,而到了2024年,Llama 3.1 405B的训练需要动用16000个GPU,持续整整两个月。这种指数级的增长势头似乎势不可挡,但研究发现,这条增长曲线即将遭遇物理世界的硬约束。

2、目前,想要扩大训练规模,无非是走三条路:延长训练时间、增加GPU数量、使用更强大的GPU。但每条路都存在着根本性的限制。训练时间很难突破6个月,因为硬件和软件都在快速迭代,超过这个时间,模型发布时就已经显得落后了。而增加GPU数量,虽然是目前主要的扩展方向,却带来了数据移动的巨大挑战。至于使用更强大的GPU,则受限于硬件发展速度,特别是延迟改善的速度实在太慢。

3、研究发现了两个关键的物理瓶颈,它们就像两堵墙,挡在了AI发展的道路上。第一堵墙是效率瓶颈,将在训练算力达到2e28 FLOP时出现。为什么会出现这个瓶颈?这要从GPU的工作原理说起。

4、在GPU内部,数据需要在高带宽内存和计算核心之间不断移动。当我们进行大规模矩阵运算时,计算时间远超数据移动时间,效率很高。但随着模型规模增大,这些矩阵必须切片成更小的块来处理。这就像一个大工厂被迫把生产线切分成许多小作坊,结果是运送零件的时间反而超过了加工时间。

5、更棘手的是GPU集群之间的通信问题。现代大模型训练需要数千个GPU协同工作,它们之间必须频繁通信和同步。有些任务甚至要求每做1-2次矩阵运算就需要同步一次。随着集群规模增大,这种通信开销呈指数级增长。






请到「今天看啥」查看全文


推荐文章
中国电影资料馆  ·  “2025挪威女性电影专题”即将开幕!
3 天前
中央戏剧学院就业创业指导中心  ·  米哈游2025春季校园招聘
2 天前
时尚女装搭配  ·  先苦后甜的四大生肖,你在列吗?
8 年前
A963设计网  ·  江西南康创嘉90号别墅美式样板房
8 年前
金融行业网  ·  银行,一个不能说的秘密!
7 年前
教你看穿男人的心  ·  让男人越来越爱你的几个技巧!
7 年前