专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

OpenAI-o3 与 Monte-Carlo 思想

深度学习自然语言处理 · 公众号 · · 2024-12-27 19:17

正文

o3 来了，分享一些个人的浅见。关于 Test-time Scaling Law 的进展，比我们想象中的要快得多。但我想说的是，这条路其实有些曲折——它是 OpenAI 在追求 AGI 的道路上，采取的 曲线救国 之策。

知乎：Hwcoder
地址：https://zhuanlan.zhihu.com/p/13874010901
编辑：「深度学习自然语言处理公众号」，转载授权请联系原作者

强化学习与捷径思维

为什么会这样说呢？我们通过两个例子来探讨。

第一个例子来自强化学习。在 RL 中，折扣因子扮演着关键角色，它意味着越往后的决策步骤，所获得的奖励将会逐渐减少。因此，强化学习的目标通常是尽量 以最短的时间和最少的步骤获得最大化的奖励 。这种策略的核心，是强调「捷径」，即尽可能快速地得到回报。

第二个例子是大模型的微调过程。一个未经微调的预训练模型，往往没有明确的指向性和控制能力。当我们询问模型「中国的首都在哪里？」时，它可能会先说「这是一个好问题，」，然后绕着话题扯一大堆，而最终才给出「北京」这个答案。然而，当同样的问题问到一个经过微调的模型时，答案直接而明确：「北京」。

这种微调后的模型展示了一种 通过优化策略获得捷径 的方式——与人类的进化历程相似——总是在追求最少的能量消耗和最短的路径。

为什么是 Reasoning？

如果把 Reasoning 采样的过程可视化为一棵树：

左侧的是过去我们追求的 捷径学习 ：以最少的步骤到达正确结果。而右侧则是以 OpenAI o1 为代表的「反思、回溯」范式。

我们知道，在 o1 进行搜索的过程中，模型会进行不断的 反思和回溯 ，而这一过程往往伴随着额外的开销。问题是，如果模型真的能一遍给出正确答案，谁还愿意花时间、花钱去做复杂的搜索呢？OpenAI 也不傻，大家都知道捷径更好！

对于越困难的问题，这棵潜在的思维树就越宽、每一步的搜索空间就更大，走捷径能到达正确答案的概率就越小。那怎么办呢？一个直观的思路就是去剪枝！把那些不可能到达终点的树节点提前剪掉，压缩搜索空间—— 让这棵树变回窄窄的 。这也是当前许多工作努力的方向，比如：

Chain of Preference Optimization 就是从思维树上天然地构造出偏好数据，再用 DPO 去优化，让模型有更大概率去选择能到达终点的树节点。

Outcome-supervised Value Models 就是将 Reasoning 建模为 MDP 过程，用当前步骤到达正确答案的概率（Value）来指导策略优化。

为何 OpenAI 选择突破传统捷径？

回到 o1 上，为什么选择打破传统的捷径思想，去走 Tree Search 这条 “ 弯路 ” 呢？

如果说在过去，我们倾向于利用（Exploit）模型的基本能力，就会认为现有 GPT-4 模型已经能够满足大部分对话和简单推理需求。并且这些任务能够很好地采样、评估偏好、迭代优化。

但这一视角忽视了更复杂任务的需求——例如数学推理（AIME、Frontier Math）、代码生成（SWE-Bench、CodeForce）等，这些任务往往难以在短期内获得回报——它们的奖励是非常稀疏的，只有在最终得出正确答案时，回报才会显现出来。

因此，传统的捷径学习不再适合处理这类复杂任务： 你连一条正确路径都采样不到，何谈去优化模型选择正确路径的概率呢 ？

回到本文的标题中的「 Monte-Carlo 思想 」，我们可以发现这其实是一回事：蒙特卡洛方法在强化学习中的应用，核心在于通过多次采样来估计策略的价值，进而优化模型。然而，这一方法有天然的局限性——如果采样的策略无法采样到最优路径，那模型优化的终点永远只是 局部最优 。这也是为什么我们会在 MC Learning 中选择更具有探索性的策略。

于是 OpenAI 选择打破强化学习的天平，摆脱了传统的捷径思维，转而强化探索（Explore）。

o1 的突破：从探索到优化

在这一背景下，OpenAI 提出了 o1 范式。这一改变使得模型能够在面对复杂任务时， 开始逐渐能够获得稀疏的奖励了 ！并且通过这些奖励，可以不断地优化策略。尽管这一探索过程可能显得繁琐和低效，但它为模型的进一步优化奠定了基础。

那么 o1 是怎么来的呢？最近也出现了很多复刻 o1 的工作，他们都在做什么呢？如果用于探索的行为策略是 On-Policy 方法的话，那就是用当前模型（例如 GPT-4o）去采样，效率还是太低。

于是大伙不约而同地选择了 Off-Policy 方法：

OpenAI 花重金聘请在读博士生来标注 Long CoT 数据；
没钱咋办？那就搞点人机协作标注数据（人工蒸馏 o1），降低对标注者的要求；
连找标注者的钱都没有？那就只能去蒸馏 R1 / QwQ、或者想其他的办法（Critique、PRM 等）。

这里我也想提醒积极复刻 o1 的大厂、实验室们，不要忘了： 探索的终极目标还是优化 ！

OpenAI-o3 与 Monte-Carlo 思想

正文

强化学习与捷径思维

为什么是 Reasoning？

为何 OpenAI 选择突破传统捷径？

o1 的突破：从探索到优化

请到「今天看啥」查看全文