从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

机器之心 · 公众号 · AI · 2025-02-15 09:08

主要观点总结

本文介绍了腾讯 AI Lab 与苏州大学、上海交通大学联合团队关于长推理模型的研究，他们发现长推理模型存在“思考不足”的问题，并对此进行了深入研究。文章还提到了研究团队对这一现象的观察、分析和解决方法。

关键观点总结

关键观点1: 长推理模型存在“思考不足”问题

研究发现长推理模型在推理过程中频繁进行思路跳转，无法集中注意力深入思考，导致准确率下降。

关键观点2: 研究团队提出了量化评估框架

为了评估思路切换的问题，研究团队引入了一种新颖的思考不足指标，为推理效率低下提供了量化评估工具。

关键观点3: 研究团队提出了缓解思考不足的解决方案

研究团队提出了一种带有思路切换惩罚（TIP）的解码方法，鼓励模型彻底探索每一条推理思路，从而提高模型的准确性。

关键观点4: 研究的重要性和展望

这项研究不仅揭示了长推理模型在推理过程中的不足之处，还为提升模型处理复杂问题的能力提供了实用解决方案。展望未来，研究者将继续探索模型中的自适应机制，以实现对思路转变的自我调节，进一步提高长推理模型的推理效率。

正文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文将介绍首个关于长推理模型 “思考不足” 现象的工作。该工作由腾讯 AI Lab 与苏州大学、上海交通大学团队共同完成。 本文的通讯作者为涂兆鹏，腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过 9000 次。担任 SCI 期刊 NeuroComputing 副主编，多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。第一作者为苏州大学博士生王越，腾讯 AI Lab 高级研究员刘秋志、徐嘉豪、梁添，以及上海交通大学博士生陈星宇、何志威。

论文题目：Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
论文地址：https://arxiv.org/pdf/2501.18585

背景与动机

长推理模型（Long Reasoning Models），如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等，因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理（Inference-Time Scaling），能够在解码阶段不断思考并尝试新的思路来优化自身的答案质量。然而，长推理模型在推理过程中所有的思考是否高效，这一问题仍未得到充分探索。

此前，腾讯 AI Lab 的研究团队发现， 长推理模型在面对简单问题时，其思考行为会出现大量重复，从而浪费大量计算资源 [5]（ o1 也会「想太多」？腾讯 AI Lab 与上海交大揭秘 o1 模型过度思考问题）。而在 面对难题时，长推理模型的思考模式是否高效依然是一个疑问 。基于此，该研究团队进一步深入研究，试图揭示长推理模型在复杂问题上的表现及其潜在问题。

思考不足是长推理模型的 “注意力缺陷多动障碍”

研究团队的最新研究显示， 长推理模型在推理过程中往往频繁地进行思路跳转，无法将注意力集中在一个正确的思路上并深入思考，从而得到正确答案。 研究团队首先将 “思路（thought）” 定义为模型在推理策略中产生的中间认知步骤。长推理模型常常通过使用 “alternatively” 等术语来切换推理思路。例如，在下图所示的例子中，模型可能会从代数操作转向几何解释，再到优化策略。这种思路切换使得长推理模型能够更广泛地探索潜在的解决方案，展示了其在解决复杂问题时的灵活性。

研究人员统计了在 MATH500 测试集的不同难度级别下，生成回答时的平均思路和 token 数量：

显然， 随着难度增加，所有模型产生的推理思路也有所增多 ，并且这一趋势与生成 token 数量的增长一致。这表明，随着问题复杂性的增加，模型更倾向于频繁切换思路，从而能够动态调整推理过程，以应对更具挑战性的问题。

那么，长推理模型是否会在思路切换的过程中提升其准确率呢？围绕这一问题，研究团队在 AIME24、Math500-Hard 和 GPQA Diamond 等测试集上，对正确回答和错误回答的平均思路数量以及 token 数量进行了深入分析，结果如下图所示：

相较于正确答案，长推理模型在错误回答中往往会出现更多的推理思路切换。这导致了 回答长度显著增长，但准确性却未能相应提升 。平均而言，长推理模型在 AIME24 上的错误回答中因频繁思路切换，生成的 token 数量比正确回答多出 225%，思路数量增加了 418%。相比之下，传统的 LLM（如 Qwen-Math-72B 和 Llama3.3-79B）在正确与错误回答之间的回答长度没有显著差异。

这一趋势表明，尽管模型被设计为动态调整其认知过程来解决问题，但更频繁的思路切换并不一定能提升准确性。换句话说，在处理难题时，长推理模型也存在 “注意力缺陷多动障碍” 的问题。研究团队将这种现象命名为 “思考不足”（Underthinking），即长推理模型在推理过程中频繁地进行思路跳转，无法将注意力集中在一个正确的思路上并深入思考，从而得到正确答案。实际上，模型可能在消耗额外计算资源（通过增加生成的 token 体现）时，未能提供更精确的解决方案。这些发现表明，在面对复杂问题时，除了探索额外的认知途径外，更需要以更有针对性和高效的方式进行操作，才能在推理复杂的问题时提升准确性。

量化 “思考不足”

研究团队认为，频繁切换思路而得出错误答案的行为，可能源于以下两个原因：一是真正的思考不足，即模型虽然找到了一条有希望的思路，但未能持续深入地坚持下去；二是对问题缺乏深入理解，从而盲目探索各种无效的方法。

为了进一步厘清这些可能性，研究团队提出了一个评估框架，用于评估一条被放弃的推理路径是否足以得出正确的答案。通过关注模型是否能够持续遵循和深化一条 “看起来有希望的思路”，可以识别思考不足的情况。具体而言，研究团队使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 来判断一个思路是否能得到正确答案。

为了验证模型回答中的初步想法是否正确，下图展示了在错误回答中不同位置思路的正确比例。

结果显示， 在各种模型的初步想法中，相当一部分的解题思路是正确的 ，但遗憾的是，模型并没有深入思考这些解题思路，而是过早地放弃了。这一现象表明，模型需要增强持续深入且准确地探索特定推理路径的能力，而不是轻易转向其他思路。

此外，研究团队还分析了不同模型的错误回答中正确思路比例的分布情况，如下图所示：

观察发现， 超过 70% 的错误回答中至少包含一个正确的思路 。此外，在这些回答中，有超过 50% 的回答其正确思路的比例达到 10% 以上。这表明，虽然长推理模型能够成功找到正确的推理思路，但它们往往难以沿着这些路径持续深入，进而得出正确的结论。这一现象凸显了鼓励模型保持并拓展其最初正确思路的重要性，以便将这些正确思路整合为准确的最终答案。

基于上述观察结果，研究团队提出了 第一个针对长推理模型思考不足的指标（Underthinking Score） ，表示为