OpenAI o1 的价值意义及 RL 的 Scaling Law

吃果冻不吐果冻皮 · 公众号 · · 2024-09-14 00:38

正文

原文：https://www.zhihu.com/question/666991594/answer/3624703380

一.OpenAI o1是大模型的巨大进步

1.1 我觉得OpenAI o1是自GPT 4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比我想的要好，GPT 4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT 4o这种方向要重要得多，原因下面会分析。、

1.2为什么说o1比4o方向重要？这是两种不同的大模型发展思路，说实话在看到GPT 4o发布的时候我是有些失望的，我当时以为OpenAI会优先做o1这种方向，但是没想到先出了GPT 4o。GPT 4o本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题，对于提升大模型的智力水平估计帮助不大；而o1本质上是在探索大模型在AGI路上能走多远、天花板在哪里的问题，很明显第二个问题更重要。

GPT 4o的问题在于本身大模型的智力水平还不够高，所以做不了复杂任务，导致很多应用场景无法实用化，而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的，尽管确实能拓展更丰富的多模态应用场景，但这类数据弥补的更多是大模型对外在多模态世界的感知能力，而不是认知能力。提升大模型认知能力主要还要靠LLM文本模型，而提升LLM模型认知能力的核心又在复杂逻辑推理能力。LLM的逻辑推理能力越强，则能解锁更多复杂应用，大模型应用的天花板就越高，所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情，没有之一。

如果o1模型能力越做越强，则可以反哺GPT 4o这种多模态大一统模型，可以通过直接用o1基座模型替换GPT 4o的基座、或者利用o1模型生成逻辑推理方面的合成数据增强GPT 4o、再或者用o1蒸馏GPT 4o模型….. 等等，能玩的花样应该有很多，都可以直接提升GPT 4o的复杂任务解决能力，从而解锁更复杂的多模态应用场景。OpenAI未来计划两条线，一条是o1，一条是GPT 4o，它的内在逻辑大概应该是这样的，就是说通过o1增强最重要的基座模型逻辑推理能力，而再把这种能力迁移到GPT 4o这种多模态通用模型上。

1.3 OpenAI o1的做法本质上是COT的自动化。我们知道，通过COT把一个复杂问题拆解成若干简单步骤，这有利于大模型解决复杂逻辑问题，但之前主要靠人工写COT来达成。从用户提出的问题形成树的根结点出发，最终走到给出正确答案，可以想像成类似AlphaGo下棋，形成了巨大的由COT具体步骤构成的树形搜索空间，这里COT的具体步骤的组合空间是巨大的，人写的COT未必最优。如果我们有大量逻辑数据，是由构成，则通过类似AlphaGo的Monte Carlo Tree Search（MCTS）搜索+强化学习，确实是可以训练大模型快速找到通向正确答案的COT路径的。而问题越复杂，则这个树的搜索空间越大，搜索复杂度越高，找到正确答案涉及到的COT步骤越多，则模型生成的COT就越复杂，体现在o1的速度越慢，生成的COT Token数越多。很明显，问题越复杂，o1自己生成的隐藏的COT越长，大模型推理成本越高，但效果最重要，成本其实不是问题，最近一年大模型推理成本降低速度奇快，这个总有办法快速降下去。

1.4 从上面o1的做法可以知道Prompt工程会逐渐消亡。之前解决复杂问题，需要人写非常复杂的Prompt，而o1本质上是COT等复杂Prompt的自动化，所以之后是不太需要用户自己构造复杂Prompt的。本来让用户写复杂Prompt就是不人性化的，所有复杂人工环节的自动化，这肯定是大势所趋。

1.5 Agent属于概念火但无法实用化的方向，主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型Plan把一个复杂任务分解为10个步骤，哪怕单个步骤的正确率高达95%，要想最后把任务做对，10个环节的准确率连乘下来，最终的正确率只有59%，惨不忍睹。那有了o1是不是这个方向就前途坦荡？也是也不是，o1的Model Card专门测试了Agent任务，对于简单和中等难度的Agent任务有明显提升，但是复杂的、环节多的任务准确率还是不太高。就是说，不是说有了o1 Agent就现状光明，但是很明显o1这种通过Self Play增强逻辑推理能力的方向应该还有很大的发展潜力，从这个角度讲说Agent未来前途光明问题应该不大。

1.6 OpenAI很多时候起到一个行业指路明灯的作用，往往是第一个证明某个方向是行得通的（比如ChatGPT、GPT 4、Sora、GPT 4o包括这次的o1），然后其他人开始疯狂往这个方向卷，到后来甚至卷的速度太快把OpenAI都甩到后面吃尾气。典型例子就是Sora，如果OpenAI不是出于阻击竞争对手秀一下肌肉，大家都没有意识到原来这个方向是可以走这么远的，但当意识到这一点后，只要你专一地卷一个方向，方向明确且资源聚焦，是可能赶超OpenAI的，目前国内外各种视频生成模型有些甚至可能已经比Sora好了，Sora至今仍然是期货状态，主要OpenAI想做的方向太多，资源分散导致分到具体一个方向的资源不够用，所以越往后发展期货状态的方向越多，也让人觉得尽显疲态。

OpenAI o1等于给大家又指出了一个前景光明的方向，估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷GPT 4o和视频生成要好，虽然具体怎么做的都不知道，但是大方向清楚且效果基本得到证明，过半年肯定头部几家都能摸清具体技术追上来，希望能再次让OpenAI吃尾气。而且这个方向看上去资源耗费应该不会特别大，偏向算法和数据一些，数据量规模估计不会特别巨大，卷起来貌似成本低一些。这是个卷的好方向。

二.预训练Scaling Law的来源及O1提到的RL Scaling law

2.1粗分的话，大语言模型最基础的能力有三种：语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力（包括数学、Coding、推理等理科能力，这里Coding有一定的特殊性，是语言能力和逻辑掺杂在一起的混合能力，Coding从语言角度可以看成一种受限的自然语言，但是混杂着复杂的内在逻辑问题。从语言角度看，Coding貌似是容易解决的，从逻辑角度看又相对难解决。总之，Coding目前看是除了语言理解外，大模型做得最好的方向）。

语言理解和表达是LLM最强的能力，初版ChatGPT就可以完全胜任各种纯语言交流的任务，基本达到人类水准，目前即使是小模型，在这方面比大模型能力也不弱；世界知识能力虽说随着模型规模越大效果越好，但幻觉问题目前无法根治，这是制约各种应用的硬伤之一；逻辑推理能力一直都是LLM的弱项，也是最难提升的方面，从GPT 4开始往后，如何有效并大幅提升LLM的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以，大模型最重要的一个是世界知识方面如何有效消除幻觉，一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

2.2从大模型的基础能力，我们再说回已经被谈滥了的大模型Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式，其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源，基本就能看出来这是为啥（以下是我猜的，不保真）：

OpenAI o1 的价值意义及 RL 的 Scaling Law

正文

一.OpenAI o1是大模型的巨大进步

二.预训练Scaling Law的来源及O1提到的RL Scaling law

请到「今天看啥」查看全文