专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
哲学园  ·  进步、世俗化与现代性(乔拓新 译) ·  昨天  
哲学园  ·  情人节大放送!爱她,就送她紫水晶 ·  昨天  
51好读  ›  专栏  ›  橘子汽水铺

Scaling Law,技术、商业、个人成长的方法论

橘子汽水铺  · 公众号  ·  · 2024-05-30 22:13

正文

Scaling Law 是2020年OpenAI提出的概念。

在这波 AI 浪潮中已经成为第一性原理。

Transformer 能大放异彩是因为其容易 Scaling 的特性。

Sora 相比 SD 能有更大的潜力,是因为其使用了 Transformer 替换 U-Net,使其具备了 Scaling 的可能性 。

Scaling Law 的原本含义是说,模型的性能主要和计算量、模型参数量、数据大小三者相关。

但除此之外, Scaling Law 作为一种方法论,对于商业和个人技能也有很重要的延展意义。

本文将深入地探讨这 Scaling Law 的方法论

一、Scaling Law 为什么能成为第一性原理

Transformer 能成为这个时代最强的算法主要是两个原因:

足够通用

不管是文本、音频、还是视频,所有的问题都可以被转换为「预测下一个token」。

为什么预测下一个token如此重要?

在《千脑智能》一书中,作者写过「我们从新皮质学习一个丰富而详细的世界模型开始,它会利用这个模型不断预测下一个感觉输入是什么。」

预测下一个感觉,就是我们大脑的预测下一个token。它可是智能的第一性原理。

我们可以设想,如果我们在看一本侦探小说,书的最后一段话是,「凶手就是X」,X就是全书的最后一个token,如果AI能准确预测最后一个token,就代表AI读懂了这本书。

可规模化

投入足够多的算力、数据,它就会变得更好。

现在流行的文生图产品, MJ SD 都是基于 U-net 的,为什么 Sora 出来之后大家很兴奋?

因为 Transformer 符合 Scaling Law,只要在一个小参数上验证到了效果,就可以通过大力出奇迹的方式,堆叠算力和数据得到更好的效果。上限是模拟整个物理世界。自动驾驶、机器人等场景,都可以一并解决。

ChatGPT也是类似的,因为文本是对人类智能的压缩,只要 Scaling 下去,不停预测下一个 token,上限是人类的智能的集合。

世界的通用解

通用化+规模化,相当于我们有了一种方法,可以解决所有问题。

从这个维度看 AGI,也许是这样的:

AGI = (预测物理世界的下一秒 + 预测人类行为的下一秒)* N

二、Scaling Law 的实践的启发

Scaling Law 俗话说叫大力出奇迹。但是在实际操作中,会有一些问题。让我们一起看看。

Scale 是放大,好的东西才能被放大

大家都知道 OpenAI 信仰 scaling law,但是大家都忽略了 OpenAI 的方法其实就是最好的。并不是所有的模型到达了 GPT4 的参数量就能达到 GPT4 的效果。强化学习的部分也是可以 scale 的,OpenAI 是第一个跑通了用户反馈和训练自动化Alignment 架构的公司,这个架构本身也是一种 scale。

如果一个方法,本身就有问题,那 scale 并不能解决问题,只能放大问题。

有些模型有明显的指令遵从问题,放大之后也依然会有。

有些开发团队,他们交付的产品质量低,改成敏捷开发的组织方式,并不能改善产品质量,只是更快地产出低质量的产品。

Scale 不只是模型参数放大

前几天朋友问,模型都到接近GPT4水平的时候,下一步把模型参数加倍有用吗?

Scaling Law 是计算量、模型参数量、数据大小三个维度的,如果数据变化不大,单纯模型参数加倍的意义很小。

现在GPT5又没出来,人造数据的构造也在实验阶段,数据方面很难 Scale。


有些方法是不能 Scale 的

有些方法只是为了解决一个比较紧急的小问题使用的,我们管它叫雕花,这种通常是不能 scale 的。雕花是实践中为了解决小问题经常需要做的。但是不能一直沉浸于雕花。比如 RAG 的很多小技巧。反而会被其他方法的 scale 吃掉,比如 long context window。有时需要跳出去,用更底层的方式解决问题。

三、商业维度的 Scaling

通用化+规模化,不仅是技术上的第一性原理,也是商业上的第一性原理。

规模效益是商业世界里的万有引力

《王慧文的产品课》里讲过,规模效益是商业世界里的万有引力。引力足够大,会把其他物质吸引过来围绕自己 引力小的话,有些物质会越绕越远 一个星体有多大,决定了万有引力有多大。

不同产品形态的规模化曲线是不一样的。

A曲线,微信,行业里只会有一家,别人再做一个一模一样的也没用的。

C曲线,规模达到一定水平之后增长变缓。例如打车。双边网络且同边负效应。一个人打到车,另一个人就叫不到了。

B曲线,淘宝,用户和价值线性增长,随着增长,没有明显的规模优势,竞争对手越来越多。

规模化的效率至关重要

在创业的时候,有个投资人的灵魂提问,腾讯抄你怎么办?实际上世界上根本不缺 idea,你能想到的会有1000个人几乎同时想到。区别只有效率。

  • 两个相同功能的产品,如果他们留存不一样,花同样的钱进行增长,最后得到的结果是天差地别的。所以方法的细节依然是重要的。

  • 美团是在饿了么之后才开始做的,但是效率是更高的。饿了么当时做校园模式,性价比很高,在不亏钱的情况下获得了200%的增长。但是这个模式只能接触到早期的用户和商家,不能代表潜在的市场。

  • 管理是反规模效应的。管理能力越强的公司,反规模效应越小。当时美团直营了200个城市,百度外卖只直营了北京一个城市,其他都是加盟的。在管理能力上是有巨大差异的。所以百度外卖也砸了很多钱,但是却做不出来。

因此大厂虽然看似钱多人多,但在竞争中并不是总有优势,反而可能因为人太多,受限于管理的反规模效应,处于劣势,这也是一个创新者的窘境里的问题。

另一个问题是,新技术的创新往往需要一个新的组织形式,因为旧文化的大组织是不够高效的。这就是为什么 Google 有着全世界最先进的研究,却不能第一个做出 ChatGPT,也不能做出第一个 Perplexity。

所以如果你做到了这三点的话,你是不怕大厂抄的,大厂还会抢着投资你:

  • 更高效的规模化战略







请到「今天看啥」查看全文