Scaling Law 是2020年OpenAI提出的概念。
在这波 AI 浪潮中已经成为第一性原理。
Transformer 能大放异彩是因为其容易 Scaling 的特性。
Sora 相比 SD 能有更大的潜力,是因为其使用了 Transformer 替换 U-Net,使其具备了 Scaling 的可能性 。
Scaling Law 的原本含义是说,模型的性能主要和计算量、模型参数量、数据大小三者相关。
但除此之外, Scaling Law 作为一种方法论,对于商业和个人技能也有很重要的延展意义。
本文将深入地探讨这 Scaling Law 的方法论
一、Scaling Law 为什么能成为第一性原理
Transformer 能成为这个时代最强的算法主要是两个原因:
足够通用
不管是文本、音频、还是视频,所有的问题都可以被转换为「预测下一个token」。
为什么预测下一个token如此重要?
在《千脑智能》一书中,作者写过「我们从新皮质学习一个丰富而详细的世界模型开始,它会利用这个模型不断预测下一个感觉输入是什么。」
预测下一个感觉,就是我们大脑的预测下一个token。它可是智能的第一性原理。
我们可以设想,如果我们在看一本侦探小说,书的最后一段话是,「凶手就是X」,X就是全书的最后一个token,如果AI能准确预测最后一个token,就代表AI读懂了这本书。
可规模化
投入足够多的算力、数据,它就会变得更好。
现在流行的文生图产品, MJ SD 都是基于 U-net 的,为什么 Sora 出来之后大家很兴奋?
因为 Transformer 符合 Scaling Law,只要在一个小参数上验证到了效果,就可以通过大力出奇迹的方式,堆叠算力和数据得到更好的效果。上限是模拟整个物理世界。自动驾驶、机器人等场景,都可以一并解决。
ChatGPT也是类似的,因为文本是对人类智能的压缩,只要 Scaling 下去,不停预测下一个 token,上限是人类的智能的集合。
世界的通用解
通用化+规模化,相当于我们有了一种方法,可以解决所有问题。
从这个维度看 AGI,也许是这样的:
AGI = (预测物理世界的下一秒 + 预测人类行为的下一秒)* N
二、Scaling Law 的实践的启发
Scaling Law 俗话说叫大力出奇迹。但是在实际操作中,会有一些问题。让我们一起看看。
Scale 是放大,好的东西才能被放大
大家都知道 OpenAI 信仰 scaling law,但是大家都忽略了 OpenAI 的方法其实就是最好的。并不是所有的模型到达了 GPT4 的参数量就能达到 GPT4 的效果。强化学习的部分也是可以 scale 的,OpenAI 是第一个跑通了用户反馈和训练自动化Alignment 架构的公司,这个架构本身也是一种 scale。
如果一个方法,本身就有问题,那 scale 并不能解决问题,只能放大问题。
有些模型有明显的指令遵从问题,放大之后也依然会有。
有些开发团队,他们交付的产品质量低,改成敏捷开发的组织方式,并不能改善产品质量,只是更快地产出低质量的产品。
Scale 不只是模型参数放大
前几天朋友问,模型都到接近GPT4水平的时候,下一步把模型参数加倍有用吗?
Scaling Law 是计算量、模型参数量、数据大小三个维度的,如果数据变化不大,单纯模型参数加倍的意义很小。
现在GPT5又没出来,人造数据的构造也在实验阶段,数据方面很难 Scale。
有些方法是不能 Scale 的
有些方法只是为了解决一个比较紧急的小问题使用的,我们管它叫雕花,这种通常是不能 scale 的。雕花是实践中为了解决小问题经常需要做的。但是不能一直沉浸于雕花。比如 RAG 的很多小技巧。反而会被其他方法的 scale 吃掉,比如 long context window。有时需要跳出去,用更底层的方式解决问题。
三、商业维度的 Scaling
通用化+规模化,不仅是技术上的第一性原理,也是商业上的第一性原理。
规模效益是商业世界里的万有引力
《王慧文的产品课》里讲过,规模效益是商业世界里的万有引力。引力足够大,会把其他物质吸引过来围绕自己 引力小的话,有些物质会越绕越远 一个星体有多大,决定了万有引力有多大。
不同产品形态的规模化曲线是不一样的。
A曲线,微信,行业里只会有一家,别人再做一个一模一样的也没用的。
C曲线,规模达到一定水平之后增长变缓。例如打车。双边网络且同边负效应。一个人打到车,另一个人就叫不到了。
B曲线,淘宝,用户和价值线性增长,随着增长,没有明显的规模优势,竞争对手越来越多。
规模化的效率至关重要
在创业的时候,有个投资人的灵魂提问,腾讯抄你怎么办?实际上世界上根本不缺 idea,你能想到的会有1000个人几乎同时想到。区别只有效率。
-
两个相同功能的产品,如果他们留存不一样,花同样的钱进行增长,最后得到的结果是天差地别的。所以方法的细节依然是重要的。
-
美团是在饿了么之后才开始做的,但是效率是更高的。饿了么当时做校园模式,性价比很高,在不亏钱的情况下获得了200%的增长。但是这个模式只能接触到早期的用户和商家,不能代表潜在的市场。
-
管理是反规模效应的。管理能力越强的公司,反规模效应越小。当时美团直营了200个城市,百度外卖只直营了北京一个城市,其他都是加盟的。在管理能力上是有巨大差异的。所以百度外卖也砸了很多钱,但是却做不出来。
因此大厂虽然看似钱多人多,但在竞争中并不是总有优势,反而可能因为人太多,受限于管理的反规模效应,处于劣势,这也是一个创新者的窘境里的问题。
另一个问题是,新技术的创新往往需要一个新的组织形式,因为旧文化的大组织是不够高效的。这就是为什么 Google 有着全世界最先进的研究,却不能第一个做出 ChatGPT,也不能做出第一个 Perplexity。
所以如果你做到了这三点的话,你是不怕大厂抄的,大厂还会抢着投资你: