专栏名称: 橘子汽水铺

橘子汽水铺 by orange.ai。 AI创始人， AI投资人，AI产品经理都在关注的AI科技自媒体。聚焦最有商业价值的AI资讯，分享一线的AI产品经理经验。

Scaling Law，技术、商业、个人成长的方法论

橘子汽水铺 · 公众号 · · 2024-05-30 22:13

正文

Scaling Law 是2020年OpenAI提出的概念。

在这波 AI 浪潮中已经成为第一性原理。

Transformer 能大放异彩是因为其容易 Scaling 的特性。

Sora 相比 SD 能有更大的潜力，是因为其使用了 Transformer 替换 U-Net，使其具备了 Scaling 的可能性。

Scaling Law 的原本含义是说，模型的性能主要和计算量、模型参数量、数据大小三者相关。

但除此之外， Scaling Law 作为一种方法论，对于商业和个人技能也有很重要的延展意义。

本文将深入地探讨这 Scaling Law 的方法论

一、Scaling Law 为什么能成为第一性原理

Transformer 能成为这个时代最强的算法主要是两个原因：

足够通用

不管是文本、音频、还是视频，所有的问题都可以被转换为「预测下一个token」。

为什么预测下一个token如此重要？

在《千脑智能》一书中，作者写过「我们从新皮质学习一个丰富而详细的世界模型开始，它会利用这个模型不断预测下一个感觉输入是什么。」

预测下一个感觉，就是我们大脑的预测下一个token。它可是智能的第一性原理。

我们可以设想，如果我们在看一本侦探小说，书的最后一段话是，「凶手就是X」，X就是全书的最后一个token，如果AI能准确预测最后一个token，就代表AI读懂了这本书。

可规模化

投入足够多的算力、数据，它就会变得更好。

现在流行的文生图产品， MJ SD 都是基于 U-net 的，为什么 Sora 出来之后大家很兴奋？

因为 Transformer 符合 Scaling Law，只要在一个小参数上验证到了效果，就可以通过大力出奇迹的方式，堆叠算力和数据得到更好的效果。上限是模拟整个物理世界。自动驾驶、机器人等场景，都可以一并解决。

ChatGPT也是类似的，因为文本是对人类智能的压缩，只要 Scaling 下去，不停预测下一个 token，上限是人类的智能的集合。

世界的通用解

通用化+规模化，相当于我们有了一种方法，可以解决所有问题。

从这个维度看 AGI，也许是这样的：

AGI = （预测物理世界的下一秒 + 预测人类行为的下一秒）* N

二、Scaling Law 的实践的启发

Scaling Law 俗话说叫大力出奇迹。但是在实际操作中，会有一些问题。让我们一起看看。

Scale 是放大，好的东西才能被放大

大家都知道 OpenAI 信仰 scaling law，但是大家都忽略了 OpenAI 的方法其实就是最好的。并不是所有的模型到达了 GPT4 的参数量就能达到 GPT4 的效果。强化学习的部分也是可以 scale 的，OpenAI 是第一个跑通了用户反馈和训练自动化Alignment 架构的公司，这个架构本身也是一种 scale。

如果一个方法，本身就有问题，那 scale 并不能解决问题，只能放大问题。

有些模型有明显的指令遵从问题，放大之后也依然会有。

有些开发团队，他们交付的产品质量低，改成敏捷开发的组织方式，并不能改善产品质量，只是更快地产出低质量的产品。

Scale 不只是模型参数放大

前几天朋友问，模型都到接近GPT4水平的时候，下一步把模型参数加倍有用吗？

Scaling Law 是计算量、模型参数量、数据大小三个维度的，如果数据变化不大，单纯模型参数加倍的意义很小。

现在GPT5又没出来，人造数据的构造也在实验阶段，数据方面很难 Scale。

有些方法是不能 Scale 的

有些方法只是为了解决一个比较紧急的小问题使用的，我们管它叫雕花，这种通常是不能 scale 的。雕花是实践中为了解决小问题经常需要做的。但是不能一直沉浸于雕花。比如 RAG 的很多小技巧。反而会被其他方法的 scale 吃掉，比如 long context window。有时需要跳出去，用更底层的方式解决问题。

三、商业维度的 Scaling

通用化+规模化，不仅是技术上的第一性原理，也是商业上的第一性原理。

规模效益是商业世界里的万有引力

《王慧文的产品课》里讲过，规模效益是商业世界里的万有引力。引力足够大，会把其他物质吸引过来围绕自己引力小的话，有些物质会越绕越远一个星体有多大，决定了万有引力有多大。

不同产品形态的规模化曲线是不一样的。

A曲线，微信，行业里只会有一家，别人再做一个一模一样的也没用的。

C曲线，规模达到一定水平之后增长变缓。例如打车。双边网络且同边负效应。一个人打到车，另一个人就叫不到了。

B曲线，淘宝，用户和价值线性增长，随着增长，没有明显的规模优势，竞争对手越来越多。

规模化的效率至关重要

在创业的时候，有个投资人的灵魂提问，腾讯抄你怎么办？实际上世界上根本不缺 idea，你能想到的会有1000个人几乎同时想到。区别只有效率。

两个相同功能的产品，如果他们留存不一样，花同样的钱进行增长，最后得到的结果是天差地别的。所以方法的细节依然是重要的。
美团是在饿了么之后才开始做的，但是效率是更高的。饿了么当时做校园模式，性价比很高，在不亏钱的情况下获得了200%的增长。但是这个模式只能接触到早期的用户和商家，不能代表潜在的市场。
管理是反规模效应的。管理能力越强的公司，反规模效应越小。当时美团直营了200个城市，百度外卖只直营了北京一个城市，其他都是加盟的。在管理能力上是有巨大差异的。所以百度外卖也砸了很多钱，但是却做不出来。

因此大厂虽然看似钱多人多，但在竞争中并不是总有优势，反而可能因为人太多，受限于管理的反规模效应，处于劣势，这也是一个创新者的窘境里的问题。

另一个问题是，新技术的创新往往需要一个新的组织形式，因为旧文化的大组织是不够高效的。这就是为什么 Google 有着全世界最先进的研究，却不能第一个做出 ChatGPT，也不能做出第一个 Perplexity。

所以如果你做到了这三点的话，你是不怕大厂抄的，大厂还会抢着投资你：

更高效的规模化战略