817样本如何激发模型7倍推理性能，上交大LIMO论文作者亲自解读

机器之心 · 公众号 · AI · 2025-02-11 17:47

主要观点总结

文章介绍了上海交大研究团队推出的LIMO方法，通过精选的817条样本在数学推理任务上超越主流大模型。文章还讨论了现代大语言模型在预训练阶段已经积累大量知识，而推理能力的提升更依赖于推理过程的质量。研究团队的实验结果显示LIMO在数学竞赛题目上表现出色，并揭示了提升推理能力的三个关键因素。

关键观点总结

关键观点1: LIMO方法通过精选的817条样本实现数学推理任务上的突破。

研究团队指出通过更少的数据可以实现更好的性能，这一理论基于现代大语言模型已经积累了大量预训练知识的事实。

关键观点2: 大模型的推理能力本质上是「潜伏的」而非「缺失的」，关键在于如何有效激活这些能力。

实验结果显示LIMO能显著提高模型在数学竞赛题目上的表现，并在不同的基准测试中实现了显著的性能提升。

关键观点3: LIMO方法在数学推理领域的研究具有深远影响，为AI推理能力的突破提供了新的思路。

研究团队分享了关于LIMO方法的线上分享会，介绍了论文作者和嘉宾的背景，以及分享的主题和内容。

正文

OpenAI o1 系列的推出，正式打响了 LLM 推理能力竞赛的第一枪。而在刚刚过去的 1 月， DeepSeek R1 发布，性能追平 o1，引发全球复现狂潮。

各大公司、研究机构纷纷遵循这一范式：用更庞大的数据集，结合更复杂的强化学习（RL）算法，试图「教会」模型如何推理。

「更大即更强」似乎已成为大家共识。

然而，最近上海交通大学的研究团队却指出：在数学推理领域，这种传统认知可能需要重新审视。

他们的研究 LIMO（Less Is More for Reasoning）表明，仅需 817 条精心设计的训练样本，就能让模型在数学竞赛级别的题目上超越当前许多最先进模型 (o1-preivew, QwQ 等），包括使用十万量级高质量数据训练的模型。

这一突破建立在两个关键洞察之上：

首先，现代大语言模型在预训练阶段已经积累了海量数学知识（如 Llama3 仅在数学推理上的训练数据达 3.7T token，而 Llama2 的全部训练数据仅有 1.8T）；

其次，推理能力的提升更依赖于推理过程的质量而非数据量的堆砌。研究团队提出，大模型的推理能力本质上是「潜伏的」而非「缺失的」，关键在于如何有效激活这些能力。

实验结果有力支持了这一理论：在美国数学竞赛邀请赛（AIME）2024 中，LIMO 的准确率达到 57.1%，显著超越了传统方法；在 10 个不同的多学科多语言基准测试上，它实现了 40.5% 的绝对性能提升。

值得一提的是，在刚刚发布的 AIME 2025 Part1 中，LIMO 依然保持极高的泛化性，取得了 46.7% 的正确率，超过了 o3-mini-low、s1-32B 等模型。研究还揭示了提升推理能力的三个关键因素：推理链的质量、问题的难度层次，以及预训练知识的深度。这一发现不仅为 AI 推理能力的突破提供了新思路，也将带来更高效的模型训练范式。

为了更好的帮助大家了解 LIMO，机器之心最新一期线上分享邀请到了论文作者叶懿芯以及黄臻，为大家进行深度剖析。感兴趣的读者，还可以参考机器之心此前报道《 817 样本激发 7 倍推理性能：上交大「少即是多」定律挑战 RL Scaling 范式》了解更多内容。

分享主题： LIMO：八百样本激发强推理能力

嘉宾介绍： 叶懿芯，上海交通大学三年级本科生，创智学院 / 交大 GAIR Lab 实习生，导师为刘鹏飞副教授。研究兴趣为大语言模型的复杂推理、基础研究、预训练及多模态。已在 NeurIPS、ECCV 等顶级国际会议上发表多篇论文，主导 / 参与了 AIME-Prievew、O1-journey、OlympicArena 等多个开源项目。

个人主页： https://bleaves.github.io/

黄臻，苏州大学四年级本科生，创智学院 / 交大 GAIR Lab 准博士，导师为刘鹏飞副教授。主要研究方向为大语言模型强推理能力的评估与提升，包括推理能力评估基准构建、高效数据工程策略以及 inference-time scaling 技术应用。已在 NeurIPS 等顶级国际会议上以第一作者身份发表多篇论文，同时主导 / 参与了 OlympicArena、O1-journey 等多个开源项目。

个人主页： zhenhuang02.notion.site

分享摘要： 本次分享将详细介绍 LIMO 方法如何通过精选的 817 条样本，在数学推理任务上超越主流大模型。我们将深入探讨推理链设计、问题选择等关键技术，以及「少即是多」原则对 AI 发展的深远影响。

相关链接：

论文标题：LIMO: Less is More for Reasoning
论文地址： https://arxiv.org/pdf/2502.03387
代码地址： https://github.com/GAIR-NLP/LIMO
数据集地址： https://huggingface.co/datasets/GAIR/LIMO
模型地址： https://huggingface.co/GAIR/LIMO

直播时间： 北京时间 2 月 13 日 19:00-20:00

直播预约：