梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
见识过32B的QwQ追平671的DeepSeek R1后——
刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事?
新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。
使Deepseek-R1蒸馏的Qwen2.5 7B模型在
麻省理工学院积分大赛
(
MIT Integration Bee
)上达到90分超越o1。
注意,不是积分制的比赛哦,是只做
微积分中积分题
的比赛,MIT的数学高手每年都会挑战一次,题目像这样:
LADDER论文来自小型独立研究团体
Tufa Labs
,论文已上传到arXiv。
在推理时间强化学习
LADDER,全称Learning through Autonomous Difficulty-Driven Example Recursion,即”通过自主难度驱动的样本递归进行学习”。
这个名字听起来有点拗口,但核心其实很容易理解:就是让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自己解决复杂问题的能力。
具体来说,LADDER是一个结构化框架,由以下组件组成:
而LADDER这个名字,也意味着像是模型学会了”爬梯子”:通过自主生成一系列从易到难的问题变体,不断练习和强化,最终爬到顶端。
以往的训练方法,总是离不开大规模标注数据。
LADDER利用模型现有能力来生成问题变体,形成循序渐进的难度梯度,最终实现自举学习。整个过程只需对答案进行验证即可,无需人工干预。
相比之前的方法,LADDER有三大优势:
不再依赖人工标注数据,降低了数据获取成本;模型通过生成问题变体构建针对性的学习路径,学习更高效;生成的问题变体与原始问题相关性高,避免陷入无关细节。
此外,作者还提出了一种创新的
测试时强化学习方法TTRL
。在推理阶段遇到复杂的数学积分测试问题时,TTRL会动态生成一系列更简单的积分变体,模型通过解决这些变体来积累经验,找到解决原始难题的方法。
这种测试时计算扩展的思路,为进一步提升模型性能开辟了新的道路。不同于简单增加输出长度,TTRL能够让模型在推理时针对性地”刷题”,动态扩展能力边界。
通过LADDER,一个原本只有1%准确率的Llama 3.2 3B模型,在没有任何人工标注数据的情况下,解题准确率飙升至82%。
更强大的基础模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法后,
MIT Integration Bee比赛的成绩就从50%提高到73%。
最后,LADDER加上TTRL方法,让最终成绩达到90。