专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
无锡博报生活  ·  DeepSeek,紧急声明! ·  13 小时前  
无锡博报生活  ·  DeepSeek,紧急声明! ·  13 小时前  
机器学习研究组订阅  ·  16张H100训26分钟,超越o1-prev ... ·  昨天  
爱可可-爱生活  ·  【[52星]N8loom:基于树结构的前缀缓 ... ·  2 天前  
黄建同学  ·  2025 AI ... ·  2 天前  
爱可可-爱生活  ·  【Crocotile ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

机器之心  · 公众号  · AI  · 2025-02-07 12:19

正文

选自 oatllm.notion.site

机器之心编译

编译:杜伟、蛋酱

自我反思(尤其是肤浅的)有时对模型性能的助益不大。


在过去这半个月里,关于 DeepSeek 的一切都会迅速成为焦点。

一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。

在 R1-Zero 发布后的短短几天内,连续几个项目都在较小规模(如 1B 到 7B)上独立「复制」了类似 R1-Zero 的训练,并且都观察到了「顿悟时刻」,这种时刻通常伴随着响应长度的增加。


原文链接:https://oatllm.notion.site/oat-zero

最近,来自新加坡 Sea AI Lab 等机构的研究者再次梳理了类 R1-Zero 的训练过程,并在一篇博客中分享了三项重要发现:

1. 在类似 R1-Zero 的训练中,可能并不存在「顿悟时刻」。相反,我们发现「顿悟时刻」(如自我反思模式)出现在 epoch 0,即基础模型中。
2. 他们从基础模型的响应中发现了肤浅的自我反思(SSR),在这种情况下,自我反思并不一定会导致正确的最终答案。
3. 仔细研究通过 RL 进行的类 R1-Zero 的训练,发现响应长度增加的现象并不是因为出现了自我反思,而是 RL 优化设计良好的基于规则的奖励函数的结果。

以下是博客的内容:

Epoch 0 的顿悟时刻

实验设置如下:

基础模型。 我们研究了由不同组织开发的各种基础模型系列,包括 Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math 和 Llama-3.x。

提示模板。 我们使用 R1-Zero 和 SimpleRL-Zero 中使用的模板直接提示基础模型:

  • 模板 1(与 R1-Zero 相同)



  • 模板 2(与 SimpleRL-Zero 相同)



数据。 我们从 MATH 训练数据集中收集了 500 道题,这些题统一涵盖了五个难度级别和所有科目,用于填充上述模板中的 {Question}。

生成参数。 我们在 0.1 至 1.0 之间对探索参数(温度)进行网格搜索,以便对选定的问题进行模型推理。在所有实验中,Top P 设置为 0.9。我们为每个问题生成 8 个回答。

经验结果

我们首先尝试了所有模型和提示模板(模板 1 或模板 2)的组合,然后根据每个模型的指令遵循能力为其选择了最佳模板,并将其固定用于所有实验。得出以下结论:

发现:「顿悟时刻」出现在 Epoch 0。我们观察到,所有模型(除了 Llama-3.x 系列)在没有任何后期训练的情况下就已经表现出了自我反思模式。

我们在下表中列出了所有观察到的表明自我反思模式的关键词。请注意,该列表可能并不详尽。这些关键词都是经过人工验证的,「等待」等词被过滤掉了,因为它们的出现并不一定意味着自我反思,而可能是幻觉的结果。我们注意到,不同的模型会显示与自我反思相关的不同关键词,我们假设这是受其预训练数据的影响。


图 1a 展示了在不同基础模型中引发自我反思行为的问题数量。结果表明,在不同的温度下都能观察到自我反思行为,其中一个趋势是,温度越高,在 epoch 0 出现「顿悟时刻」的频率越高。

图 1b 展示了不同自我反思关键词的出现次数。我们可以观察到,Qwen2.5 系列的基础模型在产生自我反思行为方面最为活跃,这也部分解释了为什么大多数开源的 R1-Zero 复现都是基于 Qwen2.5 模型。

图 1a. 在不同基础模型中,500 道数学问题中引发自我反思行为的问题数量。图 1b. 40,000 个回答中出现的关键词数量(500 个问题 × 每个问题 8 个回答 × 10 个温度)。

在确认「顿悟时刻」确实是在没有任何训练的情况下出现在 epoch 0 后,我们想知道它是否如我们所期望的那样 —— 通过自我反思来纠正错误推理。因此,我们直接在 Qwen2.5-Math-7B 基础模型上测试了 SimpleRL-Zero 博客中使用的例题。令人惊讶的是,我们发现基础模型已经表现出了合理的自我纠正行为,如图 2 所示。

图 2. 我们直接在 Qwen2.5-Math-7B 基本模型上测试了 SimpleRL-Zero 博客中报告的同一问题,发现「顿悟时刻」已经出现。

肤浅的自我反思

尽管图 2 中的示例显示了基础模型通过自我修正 CoT 直接解决复杂推理问题的巨大潜力,但我们发现并非所有来自基础模型的自我反思都有效,也并不总能带来更好的解决方案。为了便于讨论,我们将它们称为 肤浅的自我反思(Superficial Self-Reflection,SSR)。

就其定义而言,肤浅的自我反思(SSR)是指模型响应中缺乏建设性修改或改进的重评估模式。与没有自我反思的响应相比,SSR 不一定会带来更好的答案。

案例研究

为了进一步了解 SSR,我们进行了案例研究,并观察到 Qwen-2.5-Math-7B 基础模型响应中的四种自我反思模式:


  • 行为 1:自我反思,反复检查以确认正确答案(图 3a);

  • 行为 2:自我反思,纠正最初错误的想法(图 3b 和图 2);

  • 行为 3:自我反思,在原本正确的答案中引入错误(图 3c);

  • 行为 4:反复自我反思,但未能得出有效答案(图 3d)。


其中, 行为 3 和行为 4 是肤浅的自我反思,导致最终答案不正确。

图 3a:自我反思再三检查答案,确保正确性。

图 3b:自我反思纠正最初错误的答案。

图 3c:自我反思在原本正确的答案(x=12)中引入错误(x=4)。

图 3d:反复自我反思却无法提供有效的答案(无论正确或不正确)。

基础模型容易出现 SSR

接下来,我们分析了 Qwen2.5-Math-1.5B 正确和错误答案中自我反思关键词的出现情况。正如图 4 所示,在不同的采样温度下,大多数自我反思(以频率衡量)都没有得到正确答案。这表明基础模型容易产生肤浅的自我反思。

图 4:正确和错误答案中的自我反思次数。蓝色条表示正确答案中自我反思关键词的总出现次数,而红色条表示错误答案中自我反思关键词的总出现次数。

深入探讨类 R1-Zero 训练

虽然模型响应长度的突然增加通常被视为类 R1-Zero 训练中的顿悟时刻,但正如博客 Section 1 中的研究结果表明:即使没有 RL 训练,这种顿悟时刻也可能发生。因此,这自然引出了一个问题: 为什么模型响应长度遵循一种独特的模式,即在训练初期减少,然后在某个点激增?

为了研究这一点,我们通过以下两种方法来研究类 R1-Zero 训练:

  • 在倒计时(Countdown)任务上复制 R1-Zero 以分析输出长度动态;

  • 在数学问题上复制 R1-Zero 以研究输出长度与自我反思之间的关系。


长度变化是 RL 动态的一部分

我们使用了支持类 R1-Zero 训练的 oat(一个研究友好的 LLM 在线对齐框架),以使用 GRPO 算法在倒计时任务(TinyZero 所用)上对 Qwen-2.5-3B 基础模型进行 RL 调整。






请到「今天看啥」查看全文