专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

10美元复刻DeepSeek顿悟时刻，AI推理成本大跳水！

AI领域技术栈 · 公众号 · · 2025-02-23 13:55

正文

阅读原文小猫动图

在这个科技日新月异的时代，人工智能（AI）的每一次突破都足以让世人震惊。最近，来自荷兰阿姆斯特丹的开发者Raz，以不到10美元的惊人成本，成功复刻了DeepSeek的顿悟时刻，再次刷新了我们对AI推理成本的认识。与此同时，微软亚洲研究院的一项工作也让我们看到了RL（强化学习）在AI领域的巨大潜力——一个7B模型，竟然发展出了反思、验证和总结的高级推理技能！今天，就让我们一起揭开这些神秘的面纱，探寻AI背后的奥秘。

10美元复刻DeepSeek顿悟时刻，AI推理成本大跳水

在AI领域，DeepSeek一直以其强大的推理能力和顿悟时刻著称。然而，复刻这样的神迹往往需要高昂的成本和复杂的算法。然而，Raz却以一种极其经济的方式，实现了这一目标。

Raz是一位来自荷兰阿姆斯特丹的开发者，他特别考虑到了强化学习中LLM（大型语言模型）的应用和传统强化学习问题（如机器人、Atari游戏等）在状态空间和动作空间的不同。因此，他选择从非常简单的RL算法——Reinforce-Lite入手，开始了他的复刻之旅。

Reinforce-Lite是一种轻量级的强化学习算法，它能够在保持算法稳定性的同时，显著降低计算成本。Raz利用这一算法，对一个3B模型进行了端到端的强化学习微调。在微调过程中，他通过合适的提示词，让模型在标签中包含推理步骤，并定义了一个奖励函数来优化模型的表现。

结果令人出乎意料！Raz仅以不到10美元的成本，就成功复刻了DeepSeek的顿悟时刻。这一成果不仅震惊了AI圈，更让我们看到了AI推理成本大跳水的可能性。

Raz的成功并非偶然。他通过深入分析和对比传统强化学习环境和LLM环境的不同，选择了最适合LLM的强化学习算法。同时，他还通过精心设计的奖励函数和提示词，引导模型进行正确的推理和决策。这些努力最终成就了这一壮举。

微软7B模型展高级推理神技，RL潜力无限

无独有偶，微软亚洲研究院的一项工作也让我们看到了RL在AI领域的巨大潜力。他们通过有效且稳定的RL训练，让一个7B模型发展出了反思、验证和总结的高级推理技能。

这项工作的关键在于选择合适的训练数据和设计合理的奖励函数。研究人员选择了具有可控复杂度和直接答案验证方式的“合成逻辑谜题”作为训练数据。这些谜题不仅适合用来测试模型的泛化能力，还能通过改变字符数量和逻辑运算的复杂性来调节难度。同时，他们还设计了一个严格格式奖励函数来惩罚取巧输出，确保模型能够学到真正的推理能力。

在训练过程中，研究人员采用了REINFORCE++算法和来自DeepSeek-R1的奖励设计进行后训练。他们观察到，随着RL训练的进行，模型自然地分配更多的训练步骤用于推理。这种计算扩展从生成数百个token扩展到数千个token，使其能够更深入地探索和完善其思维过程。

最终，这个7B模型展现出了惊人的推理能力。它不仅能够通过系统性试错方法解决谜题，还自主整合了形式逻辑推理能力（比如运用“如果P，则Q”的逻辑蕴含公式）。这种推理模式与人类的问题解决方式高度相似，让我们看到了AI在未来可能达到的智能水平。

AI推理成本降低背后的意义与影响

Raz和微软亚洲研究院的成功不仅让我们看到了AI推理成本降低的可能性，更让我们思考了这一变化背后的意义和影响。

首先，AI推理成本的降低将推动AI技术的普及和应用。以往高昂的推理成本限制了AI技术在许多领域的应用和发展。而现在，随着成本的降低和技术的成熟，AI技术将更广泛地应用于各个领域，为人们的生活带来更多便利和改变。

10美元复刻DeepSeek顿悟时刻，AI推理成本大跳水！

正文

请到「今天看啥」查看全文