专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
白话区块链  ·  以太坊和Solana哪个更像当年的EOS? ·  昨天  
疯狂区块链  ·  怎么提升自己的能量? ·  23 小时前  
疯狂区块链  ·  如何才能不返贫? ·  昨天  
疯狂区块链  ·  今年楼市不会好的三大原因 ·  2 天前  
二郎专注互联网  ·  小白不知道的 web3空投! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

OpenAI-o3 与 Monte-Carlo 思想

深度学习自然语言处理  · 公众号  ·  · 2024-12-27 19:17

正文

o3 来了,分享一些个人的浅见。关于 Test-time Scaling Law 的进展,比我们想象中的要快得多。但我想说的是,这条路其实有些曲折——它是 OpenAI 在追求 AGI 的道路上,采取的 曲线救国 之策。

知乎 :Hwcoder
地址 :https://zhuanlan.zhihu.com/p/13874010901
编辑 :「深度学习自然语言处理 公众号」,转载授权请联系原作者

强化学习与捷径思维

为什么会这样说呢?我们通过两个例子来探讨。

第一个例子来自强化学习。在 RL 中,折扣因子 扮演着关键角色,它意味着越往后的决策步骤,所获得的奖励将会逐渐减少。因此,强化学习的目标通常是尽量 以最短的时间和最少的步骤获得最大化的奖励 。这种策略的核心,是强调「捷径」,即尽可能快速地得到回报。

第二个例子是大模型的微调过程。一个未经微调的预训练模型,往往没有明确的指向性和控制能力。当我们询问模型「中国的首都在哪里?」时,它可能会先说「这是一个好问题,」,然后绕着话题扯一大堆,而最终才给出「北京」这个答案。然而,当同样的问题问到一个经过微调的模型时,答案直接而明确:「北京」。

这种微调后的模型展示了一种 通过优化策略获得捷径 的方式——与人类的进化历程相似——总是在追求最少的能量消耗和最短的路径。

为什么是 Reasoning?

如果把 Reasoning 采样的过程可视化为一棵树:

O1 Replication Journey: Part 1

左侧的是过去我们追求的 捷径学习 :以最少的步骤到达正确结果。而右侧则是以 OpenAI o1 为代表的「反思、回溯」范式。

我们知道,在 o1 进行搜索的过程中,模型会进行不断的 反思和回溯 ,而这一过程往往伴随着额外的开销。问题是,如果模型真的能一遍给出正确答案,谁还愿意花时间、花钱去做复杂的搜索呢?OpenAI 也不傻,大家都知道捷径更好!

对于越困难的问题,这棵潜在的思维树就越宽、每一步的搜索空间就更大,走捷径能到达正确答案的概率就越小。那怎么办呢?一个直观的思路就是去 剪枝 !把那些不可能到达终点的树节点提前剪掉,压缩搜索空间—— 让这棵树变回窄窄的 。这也是当前许多工作努力的方向,比如:

Chain of Preference Optimization (CPO)

Chain of Preference Optimization 就是从思维树上天然地构造出偏好数据,再用 DPO 去优化,让模型有更大概率去选择能到达终点的树节点。

Outcome-supervised Value Models (OVM)

Outcome-supervised Value Models 就是将 Reasoning 建模为 MDP 过程,用当前步骤到达正确答案的概率(Value)来指导策略优化。

为何 OpenAI 选择突破传统捷径?

回到 o1 上,为什么选择打破传统的捷径思想,去走 Tree Search 这条 “ 弯路 ” 呢?

如果说在过去,我们倾向于 利用 (Exploit)模型的基本能力,就会认为现有 GPT-4 模型已经能够满足大部分对话和简单推理需求。并且这些任务能够很好地采样、评估偏好、迭代优化。

但这一视角忽视了更复杂任务的需求——例如数学推理(AIME、Frontier Math)、代码生成(SWE-Bench、CodeForce)等,这些任务往往难以在短期内获得回报——它们的奖励是非常稀疏的,只有在最终得出正确答案时,回报才会显现出来。

因此,传统的捷径学习不再适合处理这类复杂任务: 你连一条正确路径都采样不到,何谈去优化模型选择正确路径的概率呢

回到本文的标题中的「 Monte-Carlo 思想 」,我们可以发现这其实是一回事:蒙特卡洛方法在强化学习中的应用,核心在于通过多次采样来估计策略的价值,进而优化模型。然而,这一方法有天然的局限性——如果采样的策略无法采样到最优路径,那模型优化的终点永远只是 局部最优 。这也是为什么我们会在 MC Learning 中选择更具有探索性的策略。

于是 OpenAI 选择打破强化学习的天平,摆脱了传统的捷径思维,转而强化 探索 (Explore)。

o1 的突破:从探索到优化

在这一背景下,OpenAI 提出了 o1 范式。这一改变使得模型能够在面对复杂任务时, 开始逐渐能够获得稀疏的奖励了 !并且通过这些奖励,可以不断地优化策略。尽管这一探索过程可能显得繁琐和低效,但它为模型的进一步优化奠定了基础。

那么 o1 是怎么来的呢?最近也出现了很多复刻 o1 的工作,他们都在做什么呢?如果用于探索的行为策略是 On-Policy 方法的话,那就是用当前模型(例如 GPT-4o)去采样,效率还是太低。

于是大伙不约而同地选择了 Off-Policy 方法:

  • OpenAI 花重金聘请在读博士生来标注 Long CoT 数据;
  • 没钱咋办?那就搞点人机协作标注数据(人工蒸馏 o1),降低对标注者的要求;
  • 连找标注者的钱都没有?那就只能去蒸馏 R1 / QwQ、或者想其他的办法(Critique、PRM 等)。

这里我也想提醒积极复刻 o1 的大厂、实验室们,不要忘了: 探索的终极目标还是优化







请到「今天看啥」查看全文