360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

机器之心 · 公众号 · AI · 2025-03-06 08:02

主要观点总结

文章介绍了360智脑开源的Light-R1-32B模型，该模型通过仅使用7万条数学数据训练，实现了在AIME24和AIME25测试中的高分超越DeepSeek-R1-Distill-Qwen-32B模型。Light-R1-32B模型的训练成本较低，且全量开源，包括模型、课程学习数据集、训练框架和评测代码等。该模型基于Qwen tokenizer进行训练，具有长思维链能力，但不会对所有用户输入输出长思维链。文章还介绍了模型训练过程中的数据准备、课程学习、模型融合和数据去重等环节。

关键观点总结

关键观点1: Light-R1-32B模型的开源和优势

Light-R1-32B模型实现了突破，通过简单的数学数据训练超越了DeepSeek-R1-Distill-Qwen-32B模型在AIME24和AIME25测试中的得分。模型开源，包括全量训练和评测资产，如模型、课程学习数据集、训练框架和评测代码等。

关键观点2: Light-R1-32B模型的训练方法和流程

Light-R1-32B模型基于Qwen tokenizer进行训练，使用课程学习SFT+DPO的方法，通过多个阶段的筛选和训练，最终得到模型。整个训练流程包括数据准备、课程学习、模型融合等环节。

关键观点3: Light-R1-32B模型的应用前景和潜力

随着训练和推理技术的不断发展，长思维链模型将更加普及，Light-R1-32B模型为低成本快速训练一个领域专精推理模型提供了重要参考。其课程学习SFT+DPO对整个训练流程更轻便，成本更友好。

正文

机器之心发布

机器之心编辑部

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B，在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分，在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前，360 智脑联合北大开源了 TinyR1-32B-Preview，从 DeepSeek-R1-Distill-Qwen-32B 训练，在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。Light-R1-32B 则不依赖 DeepSeek-R1-Distill，从没有长思维链的模型出发，在数学上从零复现并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智脑希望这些工作助力开源社区发展。

注：表中为 64 次采样均分，较 16 次平均更稳定；其他开源模型截取开源汇报的结果，若没有则测试 64 次取均分。

模型仓库：https://huggingface.co/qihoo360/Light-R1-32B
项目地址：https://github.com/Qihoo360/Light-R1

低成本从零超越，领域专精

DeepSeek-R1 模型发布以来，尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能，但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。

360 智脑开源的 Light-R1-32B 实现了突破，从没有长思维链的 Qwen2.5-32B-Instruct 开始训练，它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分，均显著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的这套从零训练的方案，按 H800 租用价格估算，训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据，通过两阶段的课程学习 SFT 接着 DPO，即可超过 DeepSeek-R1-Distill-Qwen-32B，12 台 H800 机器的训练时长仅需 6 小时以内（约 4+0.5+0.5 小时）。

虽然仅使用数学数据训练了模型的长思维链能力，但在 GPQA Diamond 任务上的优秀结果，让我们相信 Light-R1 的训练方案的泛化性及有效性。相比于内部目前正在研发的强化学习路线，Light-R1 的课程学习 SFT+DPO 对整个训练流程更轻便，成本也更友好。随着训练和推理技术的不断发展，未来长思维链模型将更加普及，Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。

全量开源，简单易用

Light-R1 开源首日即开源全量训练和评测资产：

Light-R1-32B 模型：沿用 Qwen2.5-32B Apache 2.0 License；
课程学习 SFT+DPO 数据集：两阶段课程学习 SFT 和 DPO 的全部数据；
360-LLaMA-Factory 训练框架：在长思维链数据 Post-Training（尤其是 DPO）上解锁序列并行；
完整评测代码和结果：基于 DeepScaleR 的评测工具，Light-R1-32B 的原始采样结果也在 Huggingface 模型目录下。

Fully open at Day 1，确保可信度和可复现性。360 智脑也正在探索强化学习续训，未来性能有望进一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了个别特殊 token。使用 Light-R1-32B 模型时，因其长思维链能力目前仅通过数学数据训练，故并不会对所有用户输入输出长思维链。参照 DeepSeek 的推理建议，我们在聊天模板中硬编码了 < think> token 强制其思考。建议使用较新版本的 vLLM 或 SGLang 进行推理。

课程 SFT+DPO，稳步提升

数据准备

训练用的数学题来自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME（截至 2023 年）等多个开源的数学数据集，并对 AIME、MATH、GPQA 等基准测试的数据泄露去除了污染的题目。

数学题的答案抓取了 DeepSeek-R1 的结果并经过验证过滤。同时使用 DeepScaleR-1.5B-Preview 进行采样根据回答正确率估算题目的难度分级。

课程学习 SFT+DPO

基于 Qwen2.5-32B-Instruct，依次进行 Post-Training：

SFT 阶段 1：根据验证结果和难度分级初筛，得到 7 万条数据进行 SFT；
SFT 阶段 2：在 SFT 阶段 1 之后，筛选出难度最大的 3 千条数据，进行 SFT；
DPO 阶段：在 SFT 阶段 2 之后，在 3 千条数据上多次采样 Light-R1-SFT 阶段 2 的回答，根据验证结果和 DeepSeek-R1 的回答构建 DPO pair 对，进行 DPO，使用 DPO 原始 loss 或 NCA loss。

模型融合

最终，智脑团队将 SFT 阶段 2、DPO 和另一个 DPO 版本的模型（AIME24 74.7 分）融合，使用 Arcee 团队的 mergekit 工具，得到 Light-R1-32B。这两个 DPO 版本在训练数据和超参上略有不同。

整个训练流程中，每一步的提升都在前文的表格中体现。在完全没训练的科学类题目评测 GPQA 上，数学专项训练导致了部分遗忘，但 Light-R1-32B 也体现了较强的泛化性。

数据去重，助力开源生态

基准测试分数既有其重要性，也有局限性。虽然预训练阶段的个别基准测试污染难以完全避免，但在后训练阶段，应当严格杜绝数据污染，在训练集中对测试数据严格去重。360 智脑在研发过程中发现，虽然开源数据集对 AIME 都没有污染，但是在 MATH-500 和 GPQA 上都存在一定污染，通过 N-gram 或纯字母匹配检测，可以发现原题或仅更改数字的计算题。针对这种情况，Light-R1-32B 在训练过程中做了严格去重。