专栏名称: AI领域技术栈
人工智能领域技术:计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法
目录
相关文章推荐
跟宇宙结婚  ·  节目更新:跟宇宙结婚悄悄话 vol.249 ... ·  昨天  
跟宇宙结婚  ·  回味首映礼:2024年在《头脑特工队2》首映 ... ·  2 天前  
51好读  ›  专栏  ›  AI领域技术栈

10美元复刻DeepSeek顿悟时刻,AI推理成本大跳水!

AI领域技术栈  · 公众号  ·  · 2025-02-23 13:55

正文

在这个科技日新月异的时代,人工智能(AI)的每一次突破都足以让世人震惊。 最近,来自荷兰阿姆斯特丹的开发者Raz,以不到10美元的惊人成本,成功复刻了DeepSeek的顿悟时刻,再次刷新了我们对AI推理成本的认识。 与此同时,微软亚洲研究院的一项工作也让我们看到了RL(强化学习)在AI领域的巨大潜力——一个7B模型,竟然发展出了反思、验证和总结的高级推理技能! 今天,就让我们一起揭开这些神秘的面纱,探寻AI背后的奥秘。

图片

10美元复刻DeepSeek顿悟时刻,AI推理成本大跳水


在AI领域,DeepSeek一直以其强大的推理能力和顿悟时刻著称。 然而,复刻这样的神迹往往需要高昂的成本和复杂的算法。 然而,Raz却以一种极其经济的方式,实现了这一目标。
Raz是一位来自荷兰阿姆斯特丹的开发者,他特别考虑到了强化学习中LLM(大型语言模型)的应用和传统强化学习问题(如机器人、Atari游戏等)在状态空间和动作空间的不同。因此,他选择从非常简单的RL算法——Reinforce-Lite入手,开始了他的复刻之旅。
Reinforce-Lite是一种轻量级的强化学习算法,它能够在保持算法稳定性的同时,显著降低计算成本。Raz利用这一算法,对一个3B模型进行了端到端的强化学习微调。在微调过程中,他通过合适的提示词,让模型在 标签中包含推理步骤,并定义了一个奖励函数来优化模型的表现。
结果令人出乎意料!Raz仅以不到10美元的成本,就成功复刻了DeepSeek的顿悟时刻。这一成果不仅震惊了AI圈,更让我们看到了AI推理成本大跳水的可能性。

Raz的成功并非偶然。他通过深入分析和对比传统强化学习环境和LLM环境的不同,选择了最适合LLM的强化学习算法。同时,他还通过精心设计的奖励函数和提示词,引导模型进行正确的推理和决策。这些努力最终成就了这一壮举。

微软7B模型展高级推理神技,RL潜力无限


无独有偶,微软亚洲研究院的一项工作也让我们看到了RL在AI领域的巨大潜力。 他们通过有效且稳定的RL训练,让一个7B模型发展出了反思、验证和总结的高级推理技能。
这项工作的关键在于选择合适的训练数据和设计合理的奖励函数。研究人员选择了具有可控复杂度和直接答案验证方式的“合成逻辑谜题”作为训练数据。这些谜题不仅适合用来测试模型的泛化能力,还能通过改变字符数量和逻辑运算的复杂性来调节难度。同时,他们还设计了一个严格格式奖励函数来惩罚取巧输出,确保模型能够学到真正的推理能力。
在训练过程中,研究人员采用了REINFORCE++算法和来自DeepSeek-R1的奖励设计进行后训练。他们观察到,随着RL训练的进行,模型自然地分配更多的训练步骤用于推理。这种计算扩展从生成数百个token扩展到数千个token,使其能够更深入地探索和完善其思维过程。

最终,这个7B模型展现出了惊人的推理能力。它不仅能够通过系统性试错方法解决谜题,还自主整合了形式逻辑推理能力(比如运用“如果P,则Q”的逻辑蕴含公式)。这种推理模式与人类的问题解决方式高度相似,让我们看到了AI在未来可能达到的智能水平。

AI推理成本降低背后的意义与影响


Raz和微软亚洲研究院的成功不仅让我们看到了AI推理成本降低的可能性,更让我们思考了这一变化背后的意义和影响。
首先,AI推理成本的降低将推动AI技术的普及和应用。以往高昂的推理成本限制了AI技术在许多领域的应用和发展。而现在,随着成本的降低和技术的成熟,AI技术将更广泛地应用于各个领域,为人们的生活带来更多便利和改变。






请到「今天看啥」查看全文