预训练阶段的 Scaling Law 成立吗?当然是成立的,所谓 “Scaling Law 撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的 Scaling Law 走势趋缓,注意是趋缓但不是停顿,预训练阶段的 Scaling Law 并没到天花板。
按照 Chinchilla Scaling Law 推断,即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低,这是为何大家转到 RL Scaling Law 和 Test Time Scaling Law 的原因,是因为付出同样的算力,在后面两个阶段大模型智商提升更明显,就是性价比高。
目前可以提高模型效果的 Scaling 方法,按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段 Scaling Law(数据不够了,只能推大模型尺寸),有性价比高的 Scaling,当然优先做这种,性价比低的 Scaling,只有在没有性价比更高的情况下才会采用。这跟购物一个道理,有性价比高的当然不会去买性价比低的商品。
如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板,又没有找到新的性价比更合算的 Scaling Law,也不是说模型效果就提不上去了,大家仍然可以回归预训练阶段的 Scaling Law,没有新数据也没关系,推大模型尺寸规模就可以,效果仍然会上升。但这基本是最后的选择,没办法的办法,只要有性价比高的方法就不会走这条路。
一种是数据量增长极大,这样只能是增加了大量多模态数据,比如数据量从 10 T 增长到 30 T(目前文本模型使用的数据量,最多到 18 T 到 20 T 之间,基本到顶,再多没有了,要大幅增加只能加多模态数据,但是增加多模态数据对提升大模型智商帮助不大,所以这个增量按理说不应该太大),如果这样推算,Grok3的模型规模增长 3 倍左右。