昨天Jenson的GS小会内容引爆全场:
whatever training ways: LLM/RAG/RL/Model Self Leaning/Pura scaling, compute intensity stll goes up! whatever it is, they are more demanding!
我们也第一次看到Jenson在公开场合承认Post-train的需求Super Strong,甚至已经看到了RL或者Post-train自己的Scaling Law。
我们在过去一个多月的草莓与Post-train路演,以及9月5日《NV后面可能的路径》中,都反复提到
不要相信陆家嘴小作文
,Post-train需求非常强。
“post-train虽然参数没变,但是在训练算力上仍然会倍数增长,甚至最近两个月在post-train上也发现了Scaling Law;推理上也会随着模型“思考能力提高”,单次算力增长。”(9月5日原文)
我们也不断在路演中讲到,比起之前用几行公式数学推导RL,RL在最近几个月已经走上了规模化暴力求解的路径,并且看到了明确的方向,RL也有自己的Scaling Law。
9月6日的《Scaling Law Debate:讨论最近的各种小作文》讨论会上专门一条一条讨论了小作文的技术错误,也探讨了RL的Scaling Law发展。今天终于看到公开场合出现了我们提到的思路。
我们继续聊聊这个话题:
1. 以Q*、Strawberry等等为代表的新一代RL,在训练侧对于算力的需求大大提升。传统的RL,是以理论研究为基础,对算力要求不大,很多时候研究论文甚至会发现RL是跑在CPU上的。
但是,随着Pre-train模型参数量不断提升,RL的算法复杂度不断提升,训练RL的算力需求出现了巨大的增长,头部公司用来做RL的集群规模都在万卡甚至更多。有没有万卡做RL已经成为了新一代模型的入场券之一。
(这是不是大家一年前看到的Pre-train Scaling Law表述?)
2. RL 训练的算力需求要比推理高很多。因为一方面有多个模型博弈+搜索算法,Infra的难度提升很多;另一方面,
RL需要通过大量的计算来找到最佳的recipe,然后再去scale规模,规模上去了可能又要大量计算来进一步搜索最佳的recipe。这些过程中,都是需要不断的更新模型参数的,而不像推理仅仅做一次前向计算。
3. RL可能带来计算范式的又一次飞升,需要的计算通用性相比单一的类transformer计算会复杂很多,如果XPU/ASIC没有这些算子,那在做RL的时候效率就会低很多。而另一方面,RL的计算也已经从传统的CPU转向了GPU/TPU,核心还是CPU的计算能力太弱了。
如果一个算法想要scalable,那一定要从CPU转到GPU/TPU。
最后,在任何时候,如果对于未来的发展方向产生了怀疑、看不清楚,那都值得再去读一下Richard Sutton的The Bitter Lesson。Richard Sutton本身就是RL的超级大牛!当他写这篇文章的时候,GPT3还没有出来。规模和计算力量最终胜出,工业界的顶尖研究人员和工程师也都是用这个思路来指导如今的研究的。
附上我们9月5日的点评
《NV后面可能的路径》
我们梳理下周末到今天见到的所有信息:
-
ISM PMI+降息前交易+9月是最差的Seasonality月份
-
台湾产业链情绪发酵:存储负面,价格环比涨不动,周期价格见顶,下游需求弱,上半年客户采购太猛现在有库存+三大厂还在提稼动率,明年还有新增产能
3.
改铜缆设计引发市场对B卡二次Delay担忧:
-
美国司法部(DOJ)对NVDA进行反垄断调查,疑似提前泄露信息
-
财报的继续发酵:
inline北美Consensus;
miss亚洲Consensus;
B卡Comment积极,不改变明年EPS,但可能被新的铜缆事件影响看法
-
OpenAI正在定制ASIC的新闻
-
陆家嘴模型小作文:
-
Gemini下一代模型训崩=Scaling Law放缓
-
MOE后post-training放缓,合成数据瓶颈
-
post-training不需要那么多算力
-
微软AI Copilot不及预期,强迫员工使用,裁员7%
-
OpenAI新一轮融资不顺利,只能融到小几十亿
8. 同期美国也出现了类似的小作文,A16z的AI KOL @martin_casado:
-
GPT3到GPT4规模100x,但下一代100x非常困难,难在数据和数据中心
-
合成数据在Coding和Math上有用,但其他场景不确定
-
cSB1047可能放缓大模型训练进度
我们先回答下上面几条,然后再一起谈谈看法:
-
台湾产业链和NV的关系: TW semi产业链情绪当前比较悲观, 重新交易美国经济衰退+日本加息+存储/半导体周期见顶, 从交易层面看, 外资近期大量台指净空单敞口对TSMC为首的semi板块短期股价压力较大, 从供应链数据来看, 整体ODM反映需求情况依旧良好。
-
改铜缆:只改NVL72的话不影响第一批Scale Up的NVL36。
-
OpenAI ASIC是个26-27年的事情,1.6nm现在连PDK没有,还在设计的早期阶段。
-
微软的Copilot进度我们每个季度都有更新,也和大家讲过2Q的指标出现了改善,微软的2Q业绩,以及今日微软的渠道商SoftwareOne发布的业绩也都讲了这点。
-
模型的Scale Law问题我们会在周五20点做一次讨论debate,也会邀请北美的同行们与大家一起交流,会给大家更多Detail。现在可以给一些初步信息
:p
ost-train虽然参数没变,但是在训练算力上仍然会倍数增长,甚至最近几个月再post-train上也发现了Scaling Law;推理上也会随着模型“思考能力提高”,单次算力增长。
我们也和不少投资人朋友做了交流:
我自己的感受:
NV过去交易的Driver是: