专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线

计算机视觉工坊 · 公众号 · · 2025-02-06 07:00

正文

请到「今天看啥」查看全文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：机器之心

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

跟大模型说：要多想。

今年 1 月，DeepSeek R1 引爆了全球科技界，它创新的方法，大幅简化的算力需求撼动了英伟达万亿市值，更引发了全行业的反思。在通往 AGI（通用人工智能）的路上，我们现在不必一味扩大算力规模，更高效的新方法带来了更多的创新可能。

最近一段时间，全世界的科技公司、研究团队都在尝试复现 DeepSeek，但如果这个时候有人说「我还能大幅改进 AI 的推理效率」，你会怎么想？

s1 论文作者，斯坦福大学在读博士 Niklas Muennighoff 表示，DeepSeek r1 令人兴奋，但其缺少 OpenAI 的测试时间扩展图并且需要大量数据。我们推出的 s1 仅使用 1K 样本和简单的测试时间干预即可重现 o1 的预览扩展和性能。

这个新方法叫 s1。本周，斯坦福大学、华盛顿大学等研究机构尝试了最简化实现测试时间扩展（test-time scaling）的方法， 仅让模型训练 1000 个问题就获得了超越 o1 的强推理性能。

测试时间扩展是一种有前途的语言建模新方法，它使用额外的测试时间计算来提高模型性能。此前，OpenAI 的 o1 模型展示了这种能力，但并未公开分享其方法。很多工作都在尝试复现 o1，这些尝试包含蒙特卡洛树搜索、多智能体等等。今年 1 月开源的 DeepSeek R1 成功实现了 o1 级别的性能，它是在数百万个样本上通过多训练阶段强化学习实现的。

在 s1 的新工作中，研究人员寻求最简单的方法来实现测试时间扩展。它们构建了一个小型数据集 s1K，其中包含 1000 个问题，并根据三个标准（难度、多样性和质量）与推理轨迹进行配对。

在此基础上，研究人员开发了「预算强制」来控制测试时间计算，方法是强制终止模型的思考过程，或者在模型试图结束时多次将「等待」附加到模型的生成中以延长思考。这有可能会导致模型仔细检查其答案，修复其不正确的推理步骤。

在 s1K 上对 Qwen2.5-32B-Instruct 语言模型进行监督微调（16 块 H100 GPU，26 分钟）并为其设定预算强制后，新模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%（MATH 和 AIME24）。

s1 性能与其他大模型的对比。

论文：《s1: Simple test-time scaling》
论文链接：https://arxiv.org/abs/2501.19393
项目链接：https://github.com/simplescaling/s1

测试时间扩展

本文将测试时间扩展方法分为两类：

序列扩展，即后续计算依赖于先前的计算结果；
并行扩展，即计算独立运行。

本文专注于序列扩展，因为直观上其具有更好的扩展性，因为后续计算可以基于中间结果进行，从而实现更深层次的推理和迭代优化。

此外，本文还提出了新的序列扩展方法以及对其进行基准测试的方式。

预算强制（Budget forcing）。本文提出了一种简单的解码时间（decoding-time ）干预方法，通过在测试时强制设定最大或最小思考 token 数量来实现。图 3 为该方法的一个示例展示，说明了这种简单的方法可以引导模型得出更好的答案。

具体来说，本文通过简单地追加思考结束（end-of-thinking）token 分隔符和「Final Answer:」来强制设定最大 token 数量，从而提前退出思考阶段，使模型提供其当前的最佳答案。为了强制设定最小 token 数量，本文抑制思考结束 token 分隔符的生成，并选择性地在模型的当前推理轨迹后追加字符串「Wait」，以鼓励模型反思其当前生成的内容。

基线。本文用以下方法对预算强制进行基准测试：

（I）条件长度控制方法，该方法依赖于在提示中告诉模型它应该生成多长时间。本文按粒度将它们分组为（a）token 条件控制，在提示中指定思考 token 的上限；（b）步骤条件控制，指定思考步骤的上限；（c）类条件控制，编写两个通用提示，告诉模型思考一小段时间或很长一段时间。

（II）拒绝采样，即采样直到生成符合预定的计算预算。

实验

在训练阶段。本文使用 s1K 数据集对 Qwen2.5-32B-Instruct 进行监督微调，以获得本文的模型 s1-32B。微调是在 16 台 NVIDIA H100 GPU 上使用 PyTorch FSDP 进行的，耗时 26 分钟。

评估。本文采用了三个推理基准进行评估。

AIME24 包含 30 个问题，这些问题来自 2024 年 1 月 31 日至 2 月 1 日举行的美国 AIME 数学竞赛。AIME 用来测试模型在算术、代数、计数、几何、数论、概率等领域的能力；
MATH500 是一个包含不同难度竞赛数学问题的基准；
GPQA Diamond 包含 198 个来自生物学、化学和物理学的博士级科学问题。

其他模型。本文将 s1-32B 与以下模型进行基准测试对比：OpenAI o1 闭源系列模型；DeepSeek r1 开源模型；Qwen 的 QwQ-32B-preview 等模型。

值得一提的是，s1-32B 是完全开源的，包括权重、推理数据和代码。

性能

测试时间扩展。图 1 展示了 s1-32B 在使用预算强制技术后，随着测试时间计算资源的增加，性能的变化情况。

图 4（左）扩展了图 1（中）的图表，结果显示虽然本文可以通过预算强制技术和更多的测试时计算资源提升 AIME24 的性能，但最终在六倍计算量时趋于平缓。可以得出过于频繁地抑制思考结束 token 分隔符可能会导致模型陷入循环重复，而不是持续推理。

图 4（右）展示了在对 Qwen2.5-32B-Instruct 进行 1,000 个样本的训练，从而生成 s1-32B，并为其配备简单的预算强制技术后，它进入了一种不同的扩展范式。通过多数投票在基础模型上扩展测试时间计算资源无法赶上 s1-32B 的性能，这验证了这一直觉，即序列扩展比并行扩展更有效。

图 5 提供了 s1-32B 的生成示例。

样本效率。图 2（右）和表 1 将 s1-32B 与其他模型进行了比较。

结果显示， s1-32B 是样本效率最高的开放数据推理模型。尽管只在额外的 1000 个样本上进行训练，但它的表现明显优于基础模型（Qwen2.5-32B-Instruct）。

r1-32B 在仅使用 SFT 的情况下表现出比 s1-32B 更好的性能，但前者是在 800 倍以上的推理样本上进行训练的。仅用 1000 个样本是否能达到这个性能还是一个悬而未决的问题。

s1-32B 在 AIME24 上几乎与 Gemini 2.0 Thinking 相匹配，因为 s1-32B 是从 Gemini 2.0 中蒸馏出来的，这表明本文的蒸馏程序可能是有效的。

最后，本文还进行了一系列消融实验，感兴趣的读者，可以查看原论文，了解更多内容。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网： www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 、 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真 、 C++、三维视觉python、dToF、相机标定、ROS2 、 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里 👇 关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~