在这个科技日新月异的时代,人工智能(AI)的每一次突破都足以让世人震惊。
最近,来自荷兰阿姆斯特丹的开发者Raz,以不到10美元的惊人成本,成功复刻了DeepSeek的顿悟时刻,再次刷新了我们对AI推理成本的认识。
与此同时,微软亚洲研究院的一项工作也让我们看到了RL(强化学习)在AI领域的巨大潜力——一个7B模型,竟然发展出了反思、验证和总结的高级推理技能!
今天,就让我们一起揭开这些神秘的面纱,探寻AI背后的奥秘。
10美元复刻DeepSeek顿悟时刻,AI推理成本大跳水
在AI领域,DeepSeek一直以其强大的推理能力和顿悟时刻著称。
然而,复刻这样的神迹往往需要高昂的成本和复杂的算法。
然而,Raz却以一种极其经济的方式,实现了这一目标。
Raz是一位来自荷兰阿姆斯特丹的开发者,他特别考虑到了强化学习中LLM(大型语言模型)的应用和传统强化学习问题(如机器人、Atari游戏等)在状态空间和动作空间的不同。因此,他选择从非常简单的RL算法——Reinforce-Lite入手,开始了他的复刻之旅。
Reinforce-Lite是一种轻量级的强化学习算法,它能够在保持算法稳定性的同时,显著降低计算成本。Raz利用这一算法,对一个3B模型进行了端到端的强化学习微调。在微调过程中,他通过合适的提示词,让模型在
标签中包含推理步骤,并定义了一个奖励函数来优化模型的表现。
结果令人出乎意料!Raz仅以不到10美元的成本,就成功复刻了DeepSeek的顿悟时刻。这一成果不仅震惊了AI圈,更让我们看到了AI推理成本大跳水的可能性。
Raz的成功并非偶然。他通过深入分析和对比传统强化学习环境和LLM环境的不同,选择了最适合LLM的强化学习算法。同时,他还通过精心设计的奖励函数和提示词,引导模型进行正确的推理和决策。这些努力最终成就了这一壮举。
无独有偶,微软亚洲研究院的一项工作也让我们看到了RL在AI领域的巨大潜力。
他们通过有效且稳定的RL训练,让一个7B模型发展出了反思、验证和总结的高级推理技能。
这项工作的关键在于选择合适的训练数据和设计合理的奖励函数。研究人员选择了具有可控复杂度和直接答案验证方式的“合成逻辑谜题”作为训练数据。这些谜题不仅适合用来测试模型的泛化能力,还能通过改变字符数量和逻辑运算的复杂性来调节难度。同时,他们还设计了一个严格格式奖励函数来惩罚取巧输出,确保模型能够学到真正的推理能力。
在训练过程中,研究人员采用了REINFORCE++算法和来自DeepSeek-R1的奖励设计进行后训练。他们观察到,随着RL训练的进行,模型自然地分配更多的训练步骤用于推理。这种计算扩展从生成数百个token扩展到数千个token,使其能够更深入地探索和完善其思维过程。
最终,这个7B模型展现出了惊人的推理能力。它不仅能够通过系统性试错方法解决谜题,还自主整合了形式逻辑推理能力(比如运用“如果P,则Q”的逻辑蕴含公式)。这种推理模式与人类的问题解决方式高度相似,让我们看到了AI在未来可能达到的智能水平。
Raz和微软亚洲研究院的成功不仅让我们看到了AI推理成本降低的可能性,更让我们思考了这一变化背后的意义和影响。
首先,AI推理成本的降低将推动AI技术的普及和应用。以往高昂的推理成本限制了AI技术在许多领域的应用和发展。而现在,随着成本的降低和技术的成熟,AI技术将更广泛地应用于各个领域,为人们的生活带来更多便利和改变。