专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
黄建同学  ·  最近比较火🔥的Thinking ... ·  昨天  
黄建同学  ·  Andrej Karpathy ... ·  昨天  
爱可可-爱生活  ·  【kg-gen:从任何文本中提取知识图谱的A ... ·  2 天前  
量子位  ·  马斯克“地表最强”Grok ... ·  3 天前  
量子位  ·  马斯克“地表最强”Grok ... ·  3 天前  
爱可可-爱生活  ·  【[482星]VoAPI:一个高颜值、高性能 ... ·  3 天前  
51好读  ›  专栏  ›  爱可可-爱生活

“大力出奇迹”正在向“巧力出奇迹”演进,未来可能是多阶段螺旋式上-20250219075032

爱可可-爱生活  · 微博  · AI  · 2025-02-19 07:50

正文

2025-02-19 07:50

“大力出奇迹”正在向“巧力出奇迹”演进,未来可能是多阶段螺旋式上升的优化过程,算力使用将更加精准和有针对性
Grok 3是否意味着大力出奇迹的大模型法则仍然成立?

媒体风向变化太快,让人目不暇接。早上还在夸Deepseek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了10万张英伟达H100卡,效果力压OpenAI o3 mini和Deepseek R1,就转向说Scaling law还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹……
这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。

一. 预训练阶段的Scaling Law是否仍然成立

-预训练阶段的Scaling Law成立吗?当然是成立的,所谓“Scaling Law撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的Scaling Law走势趋缓,注意是趋缓但不是停顿,预训练阶段的Scaling Law并没到天花板。按照Chinchilla Scaling Law推断,即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低,这是为何大家转到RL Scaling Law和Test Time Scaling Law的原因,是因为付出同样的算力,在后面两个阶段大模型智商提升更明显,就是性价比高。

-目前可以提高模型效果的Scaling方法,按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段Scaling Law(数据不够了,只能推大模型尺寸),有性价比高的Scaling,当然优先做这种,性价比低的Scaling,只有在没有性价比更高的情况下才会采用。这跟购物一个道理,有性价比高的当然不会去买性价比低的商品。

-如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又没有找到新的性价比更合算的Scaling law,也不是说模型效果就提不上去了,大家仍然可以回归预训练阶段的Scaling Law,没有新数据也没关系,推大模型尺寸规模就可以,效果仍然会上升。但这基本是最后的选择,没办法的办法,只要有性价比高的方法就不会走这条路。

-有人问了:那按照你的意思,囤那么多GPU算力,其实对训最好的模型也没啥用?要是按照上面的理论,那确实是没有太大必要,比如Deepseek 2000卡也可以作出最好的模型不是。但是卡多有个好处,就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验,你有10个新想法,如果只有2000张卡,可能得跑5天才能得出结论,要是有几万张卡,可能1天就能得出结论,所以卡多对于探索效率是有极大帮助的。卡多创新多,这点肯定成立。

二.Grok 3基座模型(对标Deepseek V3,非R1这种逻辑推理模型)
-为何Grok 3作为通用基座模型,它的评测指标只有数学、科学和代码数据集?没有通用能力比如最常用的MMLU指标的对比,这是不太规范的对比模式。推断可能Grok 3的通用能力相对OpenAI和Deepseek的模型没有大幅提升,所以不拿出来比?

-如果想要提升基座模型的数学、科学和代码能力,无论从方法还是从成本角度来讲,难度并不大,目前比较标准的做法是类似Deepseek V3从Deepseek R1蒸馏数学、代码等逻辑题的长COT数据,即深度思考过程数据,就是说把深度思考长COT数据引入基座的Post-Training阶段、甚至前置到预训练阶段(所谓大模型“左脚(Deepseek基座)踩右脚(Deepseek R1)自我飞升”的模式),这样就能大幅提升基座模型在数学和代码方面相关的能力,也就是Grok3宣传具备的“有思维链推理和自我纠错机制”,评测指标看着会比较好看,而且蒸馏的数据总量也不会太大(几百B级别应该够了),成本很低,对算力要求不高。

-OpenAI 很快会发布的非逻辑推理模型GPT 4.5,大概也应是类似的思路,从o3模型蒸馏COT数据,用深度思考数据来提升GPT 4.5基座模型的智商,大模型“左脚踩右脚自我飞升”大法,这会是之后基座模型提升能力的主要手段。

-Grok 3的算力消耗是Grok 2的10倍,如果遵照Chinchilla Scaling Law,最佳做法是Grok 3的训练数据量比Grok 2增加3倍,模型大小同时比Grok 2增加3倍(但是目前的趋势是减小模型大小,增大数据量[就是说“小模型大数据”的模式],尽管这样不满足训练最优原则,但因为模型尺寸小了,所以这种模型更适合在线推理服务,降低服务成本)。

-如果像发布会宣称的,Grok 3耗费算力是Grok 2的10倍消息为真的话,那有两种可能。一种是数据量增长极大,这样只能是增加了大量多模态数据,比如数据量从10T增长到30T(目前文本模型使用的数据量,最多到18T到20T之间,基本到顶,再多没有了,要大幅增加只能加多模态数据,但是增加多模态数据对提升大模型智商帮助不大,所以这个增量按理说不应该太大),如果这样推算,Grok3的模型规模增长3倍左右;第二种可能是训练数据量比20T增加的不多,如果这样可以推出Grok3模型尺寸比Grok 2要大很多,至少4到5倍起步(若新增数据不多,那只能靠增加模型尺寸来消耗新增算力)。不论是哪种可能,Grok 3的模型大小肯定比Grok 2大了很多,而Grok 2模型本身可能就不小(Grok 2发布网页评测效果超过Llama 3.1 405B,所以无论数据还是模型大小,都不会太小,要是Dense模型, 70B是最小的估计了),所以Grok 3的尺寸规模很可能不是一般的大(感觉在200B到500B之间)。

-很明显,Grok 3仍然在采取推大基座模型尺寸的“传统”做法,也就是上面“Scaling Law”部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力,上面分析过,这种做法是性价比很低的。比较时髦的做法是把训练重心放在RL Scaling方面,性价比会高太多。但是为啥他要做这种赔本买卖呢?在后面会给出一个可能的解释。






请到「今天看啥」查看全文