专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

目录

相关文章推荐

爱可可-爱生活 · 晚安～ #晚安# -20250309221258 · 8 小时前

爱可可-爱生活 · [LG]《LADDER: ... · 昨天

爱可可-爱生活 · 【[476星]Volcengine ... · 2 天前

爱可可-爱生活 · 【[63星]gradio-app/groov ... · 2 天前

爱可可-爱生活 · 【[101星]loopwork-ai/emc ... · 2 天前

51好读 › 专栏 › 量子位

7B的DeepSeek蒸馏Qwen数学超o1！在测试时间强化学习，MIT积分题大赛考93分

量子位 · 公众号 · AI · 2025-03-07 15:12

正文

梦晨发自凹非寺
量子位 | 公众号 QbitAI

见识过32B的QwQ追平671的DeepSeek R1后——

刚刚，7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事？

新方法LADDER，通过递归问题分解实现AI模型的自我改进，同时不需要人工标注数据。

使Deepseek-R1蒸馏的Qwen2.5 7B模型在 麻省理工学院积分大赛 （ MIT Integration Bee ）上达到90分超越o1。

注意，不是积分制的比赛哦，是只做 微积分中积分题 的比赛，MIT的数学高手每年都会挑战一次，题目像这样：

LADDER论文来自小型独立研究团体 Tufa Labs ，论文已上传到arXiv。

在推理时间强化学习

LADDER，全称Learning through Autonomous Difficulty-Driven Example Recursion，即”通过自主难度驱动的样本递归进行学习”。

这个名字听起来有点拗口，但核心其实很容易理解：就是让语言模型（LLM）通过自我生成和求解渐进简化的问题变体，来不断提升自己解决复杂问题的能力。

具体来说，LADDER是一个结构化框架，由以下组件组成：

变体生成：一种结构化方法，用于生成复杂问题的逐渐简化变体的树，从而建立自然的难度梯度。
解的验证：一种用于验证积分解的数值积分方法。
强化学习：用于在变体树上训练基础模型的协议。

而LADDER这个名字，也意味着像是模型学会了”爬梯子”：通过自主生成一系列从易到难的问题变体，不断练习和强化，最终爬到顶端。

以往的训练方法，总是离不开大规模标注数据。

LADDER利用模型现有能力来生成问题变体，形成循序渐进的难度梯度，最终实现自举学习。整个过程只需对答案进行验证即可，无需人工干预。

相比之前的方法，LADDER有三大优势：

不再依赖人工标注数据，降低了数据获取成本；模型通过生成问题变体构建针对性的学习路径，学习更高效；生成的问题变体与原始问题相关性高，避免陷入无关细节。

此外，作者还提出了一种创新的 测试时强化学习方法TTRL 。在推理阶段遇到复杂的数学积分测试问题时，TTRL会动态生成一系列更简单的积分变体，模型通过解决这些变体来积累经验，找到解决原始难题的方法。

这种测试时计算扩展的思路，为进一步提升模型性能开辟了新的道路。不同于简单增加输出长度，TTRL能够让模型在推理时针对性地”刷题”，动态扩展能力边界。

通过LADDER，一个原本只有1%准确率的Llama 3.2 3B模型，在没有任何人工标注数据的情况下，解题准确率飙升至82%。

更强大的基础模型Qwen2.5 7B Deepseek-R1 Distilled，在用上LADDER方法后，

MIT Integration Bee比赛的成绩就从50%提高到73%。

最后，LADDER加上TTRL方法，让最终成绩达到90。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 晚安～ #晚安# -20250309221258

8 小时前

爱可可-爱生活 · [LG]《LADDER: Self-Improving LLMs-20250309053058

昨天

爱可可-爱生活 · 【[476星]Volcengine AI-App-Lab：为企业-20250307213446

2 天前

爱可可-爱生活 · 【[63星]gradio-app/groovy：让Python函-20250307213741

2 天前

爱可可-爱生活 · 【[101星]loopwork-ai/emcee：连接Agent-20250307214835

2 天前

互联网er的早读课 · 做短视频，到底什么样的内容方向可以杀出重围

8 年前

心情聊伤话 · 94岁的他爱妻成狂，吸引57万粉丝，所有人都看哭了！

8 年前

亲仁书屋 · 免费赠送《心上莲花次第开》100本，4月18日早九点开始！这世上没有无缘无故的福报

7 年前

IT桔子 · IT 桔子在招新媒体实习生，请转发此条给你年轻的学生朋友

7 年前

医学界麻醉频道 · 腰硬联合麻醉的“另类”注意事项，你知道吗？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!