最近,关于 Scaling Laws 「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。正当舆论愈演愈烈之际,OpenAI CEO Sam Altman 刚刚在 X 平台作出回应:而在这场辩论的背景下,彭博社则披露了一条引人注目的消息。OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent(智能体),这个 Agent 能够使用计算机代替用户执行任务,如编写代码或预订旅行。在此之前,Anthropic、微软、Google 也都被曝出正在布局类似的方向。对于整个 AI 行业来说,AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时,创新往往会在其他维度突破。关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
Scaling Laws 遭遇瓶颈的消息,最先源自外媒 The Information 上周末的一篇报道。好消息是,尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%,但 Altman 表示,Orion 在智能和执行任务、回答问题的能力已经与 GPT-4 不相上下。坏消息是,据上手体验的 OpenAI 员工评估,与 GPT-3 和 GPT-4 之间的巨大进步相比,Orion 提升幅度较小,比如在编程等任务上表现不佳,且运行成本较高。一句话概括就是,Scaling Laws 撞墙了。要理解 Scaling Laws 效果不及预期所带来的影响,我们有必要给不太清楚的朋友简单介绍一下 Scaling Laws 基本概念。2020 年,OpenAI 在一篇论文中最早提出 Scaling Laws。这一理论指出,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。听着有些拗口,说人话就是,大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。OpenAI 的这项研究奠定了后续大模型发展的基础,不仅促成了 GPT 系列模型的成功,也为训练 ChatGPT 提供了优化模型设计与训练的关键指导原则。只是,当我们现在还在畅想着 GPT-100 时,The Information 的爆料表明,仅仅增加模型规模已经不能保证性能的线性提升,且伴随着高昂成本和显著的边际效益递减。彭博社援引知情人士的消息称,Google 旗下的 Gemini 2.0 同样未能达到预期目标,与此同时,Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。在争分夺秒的 AI 行业,没有产品的新消息往往意味着最大的坏消息。需要明确的是,这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结,更深层的问题在于高昂成本导致边际效益的严重递减。Anthropic CEO Dario Amodei 曾透露,随着模型变得越来越大,训练成本呈现爆炸式增长,其目前正在开发的 AI 模型的训练成本就高达 10 亿美元。Amodei 还指出,未来三年内,AI 的训练成本还将飙升到 100 亿美元甚至 1000 亿美元。以 GPT 系列为例,仅 GPT-3 的单次训练成本就高达约 140 万美元,单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。去年,加州大学河滨分校的研究显示,ChatGPT 每与用户交流 25-50 个问题,就得消耗 500 毫升的水。预计到 2027 年,全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米,相当于 4-6 个丹麦或半个英国的年度用水总量。从 GPT-2 到 GPT-3,再到 GPT-4,AI 所带来的体验提升是跨越式的。正是基于这种显著的进步,各大公司才会不惜重金投入 AI 领域。但当这条道路逐渐显露尽头,单纯追求模型规模的扩张已无法保证性能的显著提升,高昂的成本与递减的边际效益便成了不得不面对的现实。现在,比起一味追求规模,在正确的方向上实现 Scaling 显得更加重要。当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时,质疑的声浪也随之翻涌而来。图灵奖得主、Meta AI 首席科学家 Yann Lecun,昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访,并附文称:引用:「AI 实验室 Safe Superintelligence(SSI)和 OpenAI 的联合创始人伊利亚·苏茨克韦尔(Ilya Sutskever)最近向路透社表示,通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型,使其理解语言模式和结构——所取得的成果已经停滞不前。」回顾这位 AI 巨头过去两年对现行大模型路线的评判,可谓是字字珠玑,句句见血。例如,今天的 AI 比猫还笨,智力差太远;LLM 缺乏对物理世界的直接经验,只是操纵着文字和图像,却没有真正理解世界,强行走下去只会死路一条等等。时间拨回两个月前,Yann Lecun 更是毫不客气地给当下主流路线判了死刑:大型语言模型(LLMs)无法回答其训练数据中未包含的问题,它们无法在缺乏大量人类帮助的情况下学习新技能或知识,它们无法创造新的事物。目前,大型语言模型只是人工智能技术的一部分。单纯地扩大这些模型的规模,并不能使它们具备上述能力。在一众 AI 末日论中,他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈。同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。5 月份在接受媒体采访时,这位华人科学家曾悲观地表示,Scaling Laws 也许是对的,但不会是全部。在他看来,Scaling Laws 的本质是以指数级的数据增长,来换取「几个点的收益」。最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 拿不到。
Scaling law 发展到最后,可能每个人都站在一个「数据孤岛」上,孤岛里的数据完全属于每个人自己,而且每时每刻都不停产生。
专家学会和 AI 融合,把自己变得非常强,AI 也代替不了他。 客观而言,Ilya 在接受路透社的采访时,虽然承认了 Scaling Laws 带来的进展已趋于停滞,但并未宣告其终结。「2010 年代是追求规模化的时代,而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。
在当下,选择正确的事物进行规模化比以往任何时候都更为关键。」并且,Ilya 还表示 SSI 正在秘密探索一种新的方法来扩展预训练过程。Dario Amodei 最近在一档播客中也谈及此事。他预测,在人类水平以下,模型并不存在绝对的天花板。既然模型尚未达到人类水平,就还不能断言 Scaling Laws 已经失效,只是确实出现了增长放缓的现象。上个月,OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示:事实证明,在一局扑克中,让一个机器人思考 20 秒钟,得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。
而对于 Yann lecun 昨天的事后诸葛亮言论,他这样回应:现在,我们处于一个这样的世界,正如我之前所说,进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。
曾有许多人合理地担心,随着预训练所需的成本和数据量变得如此庞大,我们会看到 AI 进展的回报递减。
但我认为,从 o1 中得到的一个真正重要的启示是,这道墙并不存在,我们实际上可以进一步推动这个进程。
因为现在,我们可以扩展推理计算,而且推理计算还有巨大的扩展空间。
以 Noam Brown 为代表的研究者坚信推理/测试时计算(test-time compute),极有可能成为提升模型性能的另一个灵丹妙药。说到这里,就不得不提到我们熟悉的 OpenAI o1 模型。与人类的推理方式颇为相似,o1 模型能够通过多步推理的方式「思考」问题,它强调在推理阶段赋予模型更充裕的「思考时间」。其核心秘密是,在像 GPT-4 这样的基础模型上进行的额外训练。例如,模型可以通过实时生成和评估多个可能的答案,而不是立即选择单一答案,最终选择最佳的前进路径。这样就能够将更多的计算资源集中在复杂任务上,比如数学问题、编程难题,或者那些需要人类般推理和决策的复杂操作。The Information 报道称,最近几周,DeepMind 在其 Gemini 部门内组建了一个团队,由 Jack Rae 和 Noam Shazeer 领导,旨在开发类似的能力。与此同时,不甘落后的 Google 正在尝试新的技术路径,包括调整「超参数」,即决定模型如何处理信息的变量。比如它在训练数据中的不同概念或模式之间建立联系的速度,以查看哪些变量会带来最佳结果。插个题外话,GPT 发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。而针对这个问题,Google 研究人员原本寄希望于使用 AI 合成数据,并将音频和视频纳入 Gemini 的训练数据,以实现显著改进,但这些尝试似乎收效甚微。知情人士还透露,OpenAI 和其他开发者也使用合成数据。不过,他们也发现,合成数据对 AI 模型提升的效果十分有限。在前不久举行的 Reddit AMA 活动上, 一位网友向 Altman 提问,是否会推出「GPT-5」,以及推理模型 o1 的完整版。当时,Altman 回答道:「我们正在优先推出 o1 及其后续版本」,并补充说,有限的计算资源使得同时推出多个产品变得困难。他还特别强调,下一代模型未必会延续「GPT」的命名方式。现在看来,Altman 急于与 GPT 命名体系划清界限,转而推出以「o」命名的推理模型,其背后似有深意。而推理模型的布局或许还是在于为当下主流的 Agent 埋下伏笔。最近,Altman 在接受 YC 总裁 Garry Tan 的采访时,也再次谈到了 AGI 五级理论:L1:聊天机器人具有对话能力的 AI,能够与用户进行流畅的对话,提供信息、解答问题、辅助创作等,比如聊天机器人。L2:推理者像人类一样能够解决问题的 AI,能够解决类似于人类博士水平的复杂问题,展现出强大的推理和问题解决能力,比如 OpenAI o1。L3:智能体不仅能思考,还可以采取行动的 AI 系统,能够执行全自动化业务。L4:创新者能够协助发明创造的 AI,具有创新的能力,可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。L5:组织者可以完成组织工作的 AI,能够自动掌控整个组织跨业务流程的规划、执行、反馈、迭代、资源分配、管理等,基本上已经与人类差不多。所以我们看到,与 Google 以及 Anthropic 一样,OpenAI 现在正在将注意力从模型转移到一系列称为 Agent 的 AI 工具上。今天凌晨,彭博社曝出,OpenAI 正在准备推出一款名为「Operator」的新型 AI Agent,能够使用计算机代替用户执行任务,如编写代码或预订旅行。在周三的一次员工会议上,OpenAI 领导层宣布计划在一月发布该工具的研究预览版,并通过公司的应用程序接口(API)向开发者开放。在此之前,Anthropic 也推出了类似的 Agent,够实时处理用户计算机任务并代为执行操作。与此同时,微软近期推出了一套面向员工的 Agent 工具,用于发送邮件和管理记录。而 Google 也正在筹备推出自己的 AI Agent。报道还透露,OpenAI 正在进行多个与 Agent 相关的研究项目。其中,最接近完成的是一款能够在网页浏览器中执行任务的通用工具。这些 Agent 预计将能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。现在我们可以大胆预测:每个人都将拥有自己的 AI Agent。当然,人类的终极目标是,我们更希望有一天能够对着眼前的 AI 说出那句电影的经典对白: