转个帖子，不是很明白但觉得很厉害，论文链接见评论区：斯坦福大学以-20250206183822_有限次重复博弈的专栏文章_微信文章

转个帖子，不是很明白但觉得很厉害，论文链接见评论区：斯坦福大学以-20250206183822

有限次重复博弈 · 微博 · 财经 · 2025-02-06 18:38

正文

2025-02-06 18:38
本条微博链接

转个帖子，不是很明白但觉得很厉害，论文链接见评论区：
斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法，被称为 S1。

1️⃣ S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能！同时匹敌Deepseek R1

2️⃣ 推理时间可控：S1 通过简单的“Wait”机制，控制大模型的思考时间，提高推理能力。

🔹 S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻，但它揭示了在推理时微调 AI 的潜力，甚至可以媲美 Reinforcement Learning（强化学习）。

OpenAI 和 DeepSeek 早期研究发现，AI 在回答问题时“思考得更久”，往往能得出更好的答案。但过去并没有清楚解释：如何在推理阶段控制 AI 的思考时间？

📌 S1 的创新点： S1 论文提供了推理时间扩展（Inference Scaling）的具体实现方法：

📢 核心思想：

如何在不改变 AI 训练过程的情况下，提高 AI 解决复杂问题的能力？

方法：让 AI 在推理时“多想几秒”，自动检查自己的答案，从而减少错误，提高正确率！

结果证明，这种方法比 OpenAI o1-preview 还要好！

最重要的是：而且只用了 1000 道题！这比一般 AI 训练的数据少了 800 倍，但效果仍然很强！

此外，该模型可以在笔记本电脑上运行，并且其训练成本仅为 6 美元。

转个帖子，不是很明白但觉得很厉害，论文链接见评论区：斯坦福大学以-20250206183822

正文

请到「今天看啥」查看全文