最新研究发现,推理大模型在解决复杂问题时,存在一种被称为“Underthinking”(欠思考)的现象。研究者发现这些模型在遇到高难度问题时,会频繁切换解题思路,却因缺乏深入探索而失败。研究团队来自腾讯AI实验室、苏州大学和上海交通大学,研究对象是DeepSeek-R1和QwQ系列模型。研究发现在错误回答中,模型消耗了更多的token,原因是思维切换频率增加。为了分析这一现象,研究团队开发了一个评估框架。此外,研究者还提出了一个用于量化Underthinking程度的指标,并借鉴人类考试策略,提出了一种“思路切换惩罚机制”(TIP)来减少无效切换。同时,也有其他研究者通过“简洁解码”方法提高模型推理效率。这些研究帮助我们理解AI在推理过程中的弱点,并为改进AI提供了新的思路。
TIP通过对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,从而迫使模型在当前路径上探索更久。
简洁解码通过并行运行多次模型并选择tokens最少的答案来提高准确率。
梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek和o1/o3一类推理大模型持续带来震撼之际,
有人开始研究他们的弱点了
。
最新研究揭示:
在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究者称为
Underthinking
(欠思考)
。
研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的
DeepSeek-R1和Qwen QwQ
系列模型。
通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。
这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。
“三心二意”是罪魁祸首
这一现象在解决数学竞赛题等更为复杂任务时尤为明显。
为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。
下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看,类o1模型
在错误回答中比正确回答多消耗了225%的token
,原因是思维切换频率增加了418%。
为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。
结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。
超过70%的错误回答中至少包含一个正确的思路
。此外,在超过50%的错误回答中,有10%以上的思路是正确的。
如下图所示的例子,例如,Thought 1通过识别给定方程类似于以(0,0)和(20,11)为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点(x, y)的有效方法。
然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约7270个token,却依然未能得出正确答案。
最终,它得出一个缺乏扩展COT过程支持的猜测答案。
基于这些观察,研究人员提出了一个用于量化Underthinking程度的指标
(Underthinking Metric)
。
这个指标通过测量错误答案中的token使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。
实验结果表明,所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。
在MATH500-Hard和GPQA Diamond数据集上,性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时,其UT得分也更高,表明错误回答中存在更多思维不足。
这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。
相反,在AIME2024测试集中,DeepSeek-R1-671B模型不仅取得了更高的准确率,还表现出较低的UT得分,反映出较少的思维不足和更高的token效率。
这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024所要求的问题类型和推理过程更好地对齐。
理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。