专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
六里投资报  ·  但斌最新谈AI机会:2025年或能看到软件端 ... ·  11 小时前  
六里投资报  ·  但斌最新谈AI机会:2025年或能看到软件端 ... ·  11 小时前  
爱可可-爱生活  ·  【[392星]Simba:一款轻量级、高度可 ... ·  昨天  
爱可可-爱生活  ·  【[475星]Gemini ... ·  昨天  
宝玉xp  ·  Sam Altman 说会为 ... ·  3 天前  
51好读  ›  专栏  ›  机器之心

从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题

机器之心  · 公众号  · AI  · 2025-02-15 09:08

主要观点总结

本文介绍了腾讯 AI Lab 与苏州大学、上海交通大学联合团队关于长推理模型的研究,他们发现长推理模型存在“思考不足”的问题,并对此进行了深入研究。文章还提到了研究团队对这一现象的观察、分析和解决方法。

关键观点总结

关键观点1: 长推理模型存在“思考不足”问题

研究发现长推理模型在推理过程中频繁进行思路跳转,无法集中注意力深入思考,导致准确率下降。

关键观点2: 研究团队提出了量化评估框架

为了评估思路切换的问题,研究团队引入了一种新颖的思考不足指标,为推理效率低下提供了量化评估工具。

关键观点3: 研究团队提出了缓解思考不足的解决方案

研究团队提出了一种带有思路切换惩罚(TIP)的解码方法,鼓励模型彻底探索每一条推理思路,从而提高模型的准确性。

关键观点4: 研究的重要性和展望

这项研究不仅揭示了长推理模型在推理过程中的不足之处,还为提升模型处理复杂问题的能力提供了实用解决方案。展望未来,研究者将继续探索模型中的自适应机制,以实现对思路转变的自我调节,进一步提高长推理模型的推理效率。


正文

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:[email protected][email protected]

本文将介绍首个关于长推理模型 “思考不足” 现象的工作。该工作由腾讯 AI Lab 与苏州大学、上海交通大学团队共同完成。 本文的通讯作者为涂兆鹏,腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过 9000 次。担任 SCI 期刊 NeuroComputing 副主编,多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。第一作者为苏州大学博士生王越,腾讯 AI Lab 高级研究员刘秋志、徐嘉豪、梁添,以及上海交通大学博士生陈星宇、何志威。


  • 论文题目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

  • 论文地址:https://arxiv.org/pdf/2501.18585


背景与动机

长推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来优化自身的答案质量。然而,长推理模型在推理过程中所有的思考是否高效,这一问题仍未得到充分探索。

此前,腾讯 AI Lab 的研究团队发现, 长推理模型在面对简单问题时,其思考行为会出现大量重复,从而浪费大量计算资源 [5]( o1 也会「想太多」?腾讯 AI Lab 与上海交大揭秘 o1 模型过度思考问题 )。而在 面对难题时,长推理模型的思考模式是否高效依然是一个疑问 。基于此,该研究团队进一步深入研究,试图揭示长推理模型在复杂问题上的表现及其潜在问题。

思考不足是长推理模型的 “注意力缺陷多动障碍”

研究团队的最新研究显示, 长推理模型在推理过程中往往频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。 研究团队首先将 “思路(thought)” 定义为模型在推理策略中产生的中间认知步骤。长推理模型常常通过使用 “alternatively” 等术语来切换推理思路。例如,在下图所示的例子中,模型可能会从代数操作转向几何解释,再到优化策略。这种思路切换使得长推理模型能够更广泛地探索潜在的解决方案,展示了其在解决复杂问题时的灵活性。


研究人员统计了在 MATH500 测试集的不同难度级别下,生成回答时的平均思路和 token 数量:


显然, 随着难度增加,所有模型产生的推理思路也有所增多 ,并且这一趋势与生成 token 数量的增长一致。这表明,随着问题复杂性的增加,模型更倾向于频繁切换思路,从而能够动态调整推理过程,以应对更具挑战性的问题。

那么,长推理模型是否会在思路切换的过程中提升其准确率呢?围绕这一问题,研究团队在 AIME24、Math500-Hard 和 GPQA Diamond 等测试集上,对正确回答和错误回答的平均思路数量以及 token 数量进行了深入分析,结果如下图所示:



相较于正确答案,长推理模型在错误回答中往往会出现更多的推理思路切换。这导致了 回答长度显著增长,但准确性却未能相应提升 。平均而言,长推理模型在 AIME24 上的错误回答中因频繁思路切换,生成的 token 数量比正确回答多出 225%,思路数量增加了 418%。相比之下,传统的 LLM(如 Qwen-Math-72B 和 Llama3.3-79B)在正确与错误回答之间的回答长度没有显著差异。

这一趋势表明,尽管模型被设计为动态调整其认知过程来解决问题,但更频繁的思路切换并不一定能提升准确性。换句话说, 在处理难题时,长推理模型也存在 “注意力缺陷多动障碍” 的问题。研究团队将这种现象命名为 “思考不足”(Underthinking),即长推理模型在推理过程中频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。 实际上,模型可能在消耗额外计算资源(通过增加生成的 token 体现)时,未能提供更精确的解决方案。这些发现表明,在面对复杂问题时,除了探索额外的认知途径外,更需要以更有针对性和高效的方式进行操作,才能在推理复杂的问题时提升准确性。

量化 “思考不足”

研究团队认为,频繁切换思路而得出错误答案的行为,可能源于以下两个原因:一是真正的思考不足,即模型虽然找到了一条有希望的思路,但未能持续深入地坚持下去;二是对问题缺乏深入理解,从而盲目探索各种无效的方法。

为了进一步厘清这些可能性,研究团队提出了一个评估框架,用于评估一条被放弃的推理路径是否足以得出正确的答案。通过关注模型是否能够持续遵循和深化一条 “看起来有希望的思路”,可以识别思考不足的情况。具体而言,研究团队使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 来判断一个思路是否能得到正确答案。

为了验证模型回答中的初步想法是否正确,下图展示了在错误回答中不同位置思路的正确比例。


结果显示, 在各种模型的初步想法中,相当一部分的解题思路是正确的 ,但遗憾的是,模型并没有深入思考这些解题思路,而是过早地放弃了。这一现象表明,模型需要增强持续深入且准确地探索特定推理路径的能力,而不是轻易转向其他思路。

此外,研究团队还分析了不同模型的错误回答中正确思路比例的分布情况,如下图所示:


观察发现, 超过 70% 的错误回答中至少包含一个正确的思路 。此外,在这些回答中,有超过 50% 的回答其正确思路的比例达到 10% 以上。这表明,虽然长推理模型能够成功找到正确的推理思路,但它们往往难以沿着这些路径持续深入,进而得出正确的结论。这一现象凸显了鼓励模型保持并拓展其最初正确思路的重要性,以便将这些正确思路整合为准确的最终答案。

基于上述观察结果,研究团队提出了 第一个针对长推理模型思考不足的指标(Underthinking Score) ,表示为 。该指标的计算公式为:


其中,N 是测试集中的错题数量, 是第 i 个错题的回答 token 数量, 是从该回答开始到第一个正确想法为止的 token 数量(包括第一个正确想法)。如果第 i 个回答中没有正确的思路,则 ,表示模型对该问题缺乏理解,因此无法认为是 “思考不足”。直观地说,如果一个模型在回答过程中最初产生了正确的思路,但随后转向其他思路并最终未能得出正确答案,那么此后生成的 token 对于最终达到正确答案并无实质性贡献。这种情况下,由于缺乏足够的思考深度,模型的推理过程被认为是低效的。具体而言, 值低表示更高的推理效率,这意味着在错误回答中,有更大比例的 token 能够为正确思路的形成提供支持; 值高表示较低的推理效率,意味着有更大比例的 token 未能有效助力于正确思路的生成,即模型可能因频繁切换思路而生成大量冗余或不相关的 token。


借助这一指标,研究人员能够定量地评估模型在错误回答中的推理效率。下表展示了不同模型的准确率(越高性能越强)和 思考不足得分 (越小越能充分思考):


结果表明,单纯增大模型尺寸并不能避免思考不足,模型准确率的提升也不一定会减少该现象。由此可见,我们需要深入探索思考不足这一复杂现象,从而在训练模型的过程中,不仅使其能够给出正确的答案,还能具备高效的推理能力。

缓解思考不足:引入思路转换惩罚

为了缓解长推理模型的思考不足现象,研究团队提出了一种 惩罚思路转换 的解码策略,称为 “Thought Switching Penalty”(TIP)。该策略通过在生成过程中对思路切换施加惩罚,鼓励模型在深入探索每个推理路径后再考虑其他替代方案。

在标准的解码过程中,在位置 t 生成 token v 的概率是通过对输出层的 logits 使用 softmax 函数计算的:


其中 是位置 t 关于 token v 的 logit(未归一化的分数)。为了鼓励模型在切换思路之前更深入地探索当前思路,研究团队引入了一个对与思路转换相关的表达惩罚。具体而言,设 是与思路切换相关的词汇集合(例如,“alternatively”),作者们修改了 logits 如下:


其中: (惩罚强度)是一个控制对思路切换标记施加惩罚强度的参数。较大的 会导致这些词语的 logits 减少更多,使它们被选中的可能性降低; (惩罚持续时间)指定了从思路开始位置 起的惩罚生效的位置数。较大的 会延长惩罚的范围,进一步阻止过早的思路切换;当






请到「今天看啥」查看全文