转个帖子,不是很明白但觉得很厉害,论文链接见评论区:
斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1。
1️⃣ S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1
2️⃣ 推理时间可控:S1 通过简单的“Wait”机制,控制大模型的思考时间,提高推理能力。
🔹 S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻,但它揭示了在推理时微调 AI 的潜力,甚至可以媲美 Reinforcement Learning(强化学习)。
OpenAI 和 DeepSeek 早期研究发现,AI 在回答问题时“思考得更久”,往往能得出更好的答案。但过去并没有清楚解释:如何在推理阶段控制 AI 的思考时间?
📌 S1 的创新点: S1 论文提供了推理时间扩展(Inference Scaling)的具体实现方法:
📢 核心思想:
如何在不改变 AI 训练过程的情况下,提高 AI 解决复杂问题的能力?
方法:让 AI 在推理时“多想几秒”,自动检查自己的答案,从而减少错误,提高正确率!
结果证明,这种方法比 OpenAI o1-preview 还要好!
最重要的是:而且只用了 1000 道题! 这比一般 AI 训练的数据少了 800 倍,但效果仍然很强!
此外,该模型可以在笔记本电脑上运行,并且其训练成本仅为 6 美元。
斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1。
1️⃣ S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1
2️⃣ 推理时间可控:S1 通过简单的“Wait”机制,控制大模型的思考时间,提高推理能力。
🔹 S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻,但它揭示了在推理时微调 AI 的潜力,甚至可以媲美 Reinforcement Learning(强化学习)。
OpenAI 和 DeepSeek 早期研究发现,AI 在回答问题时“思考得更久”,往往能得出更好的答案。但过去并没有清楚解释:如何在推理阶段控制 AI 的思考时间?
📌 S1 的创新点: S1 论文提供了推理时间扩展(Inference Scaling)的具体实现方法:
📢 核心思想:
如何在不改变 AI 训练过程的情况下,提高 AI 解决复杂问题的能力?
方法:让 AI 在推理时“多想几秒”,自动检查自己的答案,从而减少错误,提高正确率!
结果证明,这种方法比 OpenAI o1-preview 还要好!
最重要的是:而且只用了 1000 道题! 这比一般 AI 训练的数据少了 800 倍,但效果仍然很强!
此外,该模型可以在笔记本电脑上运行,并且其训练成本仅为 6 美元。