专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[157星]YuEGP:一个开源的全曲生成 ... ·  12 小时前  
宝玉xp  ·  GitHub ... ·  昨天  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  昨天  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  昨天  
宝玉xp  ·  转发微博-20250205150219 ·  3 天前  
爱可可-爱生活  ·  【Claude和o3 ... ·  3 天前  
51好读  ›  专栏  ›  新智元

DeepSeek-R1-Zero不存在顿悟时刻?华人团队揭秘真相:或只因强化学习

新智元  · 公众号  · AI  · 2025-02-08 16:40

正文



新智元报道

编辑:KingHZ Aeneas
【新智元导读】 最近某个华人团队发现:类似DeepSeek-R1-Zero的「顿悟时刻」,可能并不存在。类似复现实验中之所以出现响应变长现象,或许只是因为强化学习,而不是所谓的「顿悟」。

最近,「啊哈时刻」(Aha moment)这个词在AI圈流行起来了!

并不是凤凰传奇的风刮到了AI圈,更不是AI大佬开始跟曾毅学rap了。
这里的「Aha moment」指的是AI模型的「顿悟时刻」:在那一刻AI仿佛打通了「任督二脉」,可以像人类一样自我反思。
简而言之,「啊哈时刻」(Aha  moment)就是模型「灵机一动」,让人眼前一亮的时刻。
DeepSeek-R1论文中,提到模型让作者「见证了强化学习的力量和美感」。

在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思

全球各大相关实验室,纷纷利用R1-Zero-like训练技术复现AI模型的「顿悟时刻」。

比如,开源项目SimpleRL-Zero,只使用基于规则的奖励,去提升模型的推理能力。

几乎与DeepSeek-R1中使用的方案一样,唯一的区别是目前代码使用的是PPO,而不是GRPO。

项目链接:https://github.com/hkust-nlp/simpleRL-reason
但是!新发现可能给这场全球的热潮浇了一盆冷水。
来自Sea AI Lab&NUS的研究人员刘梓辰(Zichen Liu),在X上公布了最新的研究,表示:
在R1-Zero-like训练中, 也许没有顿悟时刻。

最近,关于R1-Zero-like训练的普遍看法是,自我反思作为RL训练的结果,涌现而出。仔细研究之后,表明情况完全相反。

突然反转:并没有顿悟

在R1-Zero发布后的几天内,在较小规模(例如1B到7B)上,多个独立项目「复现」了类似R1-Zero的训练。

而且大家都观察到了「顿悟时刻」。此外,「顿悟」一般都伴随着响应长度的增加。

这次新研究揭示: AI或许从未「顿悟」,模型响应长度的突然增加也不是因为「顿悟」。
具体而言,新研究有3点重要发现:
  1. 顿悟时刻(例如自我反思模式)出现在第0轮,也就是基础模型阶段,根本用不着RL训练。

  2. 在基础模型的响应中,发现了浅度自我反思现象(Superficial Self-Reflection,SSR),但这种自我反思带来的最终答案不一定正确。但强化学习可以将SSR转化为有效自我反思,提升模型效果。

  3. 响应长度增加的现象并不是由于自我反思,而是强化学习精心优化奖励函数所导致的结果。

无需训练,也可顿悟?

啊哈时刻出现在Epoch 0
研究者测试了各家机构的多种基础模型,包括Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math和Llama-3.x。
当R1-zero和SimpleRl-Zero还在辛苦训练时,新研究揭示不必如此大费周折。
使用它们的提示,就能激活基础模型「自我反思」!
研究者使用了在R1-Zero和SimpleRL-Zero中应用的模板,来提示这些基础模型:
研究者从MATH训练数据集中收集了500个问题,均匀覆盖了五个难度级别和所有科目。
在生成参数上,研究者对探索参数(温度)在0.1到1.0之间进行网格搜索,用于在选定问题上的模型推理。所有实验的Top P都设置为0.9。每个问题生成8个回复。
研究者首先尝试了所有模型和提示模板(模板1或2)的所有组合,然后根据每个模型的指令跟随能力选择最佳模板,并将其固定用于所有实验。
然后,出人意料的结果出现了!
研究者发现,在Epoch 0阶段,就已经出现了啊哈时刻。除Llama-3.x系列外,所有模型还未经任何训练,就已经表现出了自我反思模式。
并且出现了以下「自我反思」关键词:
check again,re-evaluate,re-example, recheck, reevaluate, re-evaluatation, rethink, think again, try again
从定性角度看,研究者在下表中列出了所有暗示模型自我反思模式的关键词。
他们猜测,不同模型展示出了与自我反思相关的不同关键词,可能和预训练数据有关。
可以看到,不同的AI模型有不同的「个性」:有些模型比DeepSeek-Math-7b更喜欢用「反思」(rethink)。
图1a显示了在不同基础模型中引发自我反思行为的问题数量。
结果表明,自我反思在不同温度下可以观察到,并且在较高温度下,epoch 0 处的顿悟时刻会更频繁地出现。
图1b显示了不同自我反思关键词的出现次数。
可以观察到,来自 Qwen2.5系列的基础模型在生成自我反思行为方面最为活跃,这在一定程度上反映出:大多数开放的R1-Zero复现版本都是基于 Qwen2.5模型。
不同模型的自我反思关键词统计如下:
当发现顿悟时刻确实在Epoch 0出现、没有经过任何训练时,研究者想知道:它真的是按照他们的预期,通过自我反思来纠正错误推理的吗?
因此,他们直接就在Qwen2.5-Math-7B基础模型上,测试了SimpleRL-Zero博客中示例问题。
令人惊讶的是,它在没有任何训练的情况下,就能通过自我修正思维链(CoT),直接解决在SimpleRL-Zero中报告的示例问题了!

SimpleRL-Zero中报告的示例问题

浅度自我反思,可以进阶

不过尽管基础模型表现出了通过自我纠正的CoT解决复杂推理的巨大潜力,但并非所有它们的自我反思都是有效的。

其中有很多并没有最终导致正确答案,研究者将之称为浅度自我反思(Superficial Self-Reflection,SSR)。
定义:浅度自我反思(SSR)指的是模型在回答中进行重新评估的模式,但这种反思缺乏建设性的修正或改进。SSRs不一定会比没有自我反思的回答提供更优质的答案

Qwen-2.5-Math-7B基础模型的四种自我反思模式

为了识别SSR,研究者进行了案例研究。
他们观察到, Qwen2.5-Math-7B基础模型响应中存在四种自我反思模式:
行为1:双重检查和确认正确答案的自我反思
行为2:纠正最初错误想法的自我反思
行为3:将错误引入原本正确答案的自我反思
行为4:无法产生有效答案的重复自我反思
其中行为3和行为4就属于浅层自我反思,最终导致了错误答案。

基础模型很容易产生SSR

接下来,研究者分析了Qwen2.5-Math-1.5B正确和错误答案中,自我反思关键词出现的情况。
正如下图所示,在不同采样温度下,大多数自我反思(以频率衡量)并未导致正确答案。
这也就表明,基础模型很容易出现浅层自我反思。

深入了解R1-Zero-like训练

虽然模型突然响应长度增加,被视为R1-Zero-like中的啊哈时刻。但如上所述,这种顿悟在没有RL训练的情况下也可能发生。
所以,究竟为什么模型响应长度会遵循一种特殊模式——在早期训练阶段下降,然后在某个点激增?
为此,研究者通过两种方法研究立刻R1-Zero-like训练:(1) 在倒计时任务中对 R1-Zero的玩具级再现,以分析输出长度动态;(2) 在数学问题中对R1-Zero的再现,以研究输出长度与自我反思之间的关系。
长度变化是强化学习动态的一部分。
可以猜测:或许通过设计适当的奖励,强化学习(RL)能将浅度自我反思转化为有效自我反思?
研究团队进一步深入研究了R1-Zero-like训练中的强化学习动态。
他们使用支持R1-Zero-like训练的OAT,利用GRPO在倒计时任务上对Qwen-2.5-3B基础模型进行RL调优。
在这个任务中,模型被给定三到四个数字,并要求通过加、减、乘、除等算法操作,构造出一个等式使其结果等于目标值。
这个过程中,就不可避免地需要模型多次尝试不同的方案,因此需要自我反思行为。
图5右侧展示了RL训练过程中的奖励和响应长度动态。






请到「今天看啥」查看全文