DeepLearning AI 最新关于强化学习RL的文章↓《强-20250204101420_黄建同学的专栏文章_微信文章

DeepLearning AI 最新关于强化学习RL的文章↓

《强化学习加速大模型推理能力》

DeepSeek-R1 和 Kimi k1.5 如何利用强化学习优化推理过程？

强化学习正成为提升大模型推理能力的新路径。DeepSeek-R1 及其变体 DeepSeek-R1-Zero，以及 Kimi k1.5 通过强化学习改进推理链，提高数学、编程、科学等领域问题的解题能力。

★ 核心思路：

1. 强化学习为模型设定奖励机制，鼓励其生成正确的推理步骤，而非单纯预测下一个 token。

2. DeepSeek 团队发现，仅使用强化学习微调（在预训练基础上），DeepSeek-R1-Zero 就能学会双重检查答案，但也会出现混用多种语言等问题。通过在强化学习前进行少量监督微调，DeepSeek-R1 改善了这一点。

3. Kimi k1.5 通过类似策略，在强化学习前训练长推理链，使其能自主形成解题策略，但初步结果生成的答案较长，计算成本较高。团队随后增加了一轮强化学习，优化生成更短但仍然准确的回答。

4. 这一策略在数学基准测试 AIME 2024 和 MATH-500 上显著减少了答案 token 数量，同时保持准确率。OpenAI 也曾使用强化学习优化 o1 模型的推理能力，尽管具体细节未公开。

★ 为什么重要？
过去，强化学习主要用于游戏 AI 和机器人控制，在 LLM 训练中，主要用于对齐人类偏好（如 RLHF 和 RLAIF）。如今，它正成为提升推理能力的重要手段，尤其是在更复杂的任务（数学、编程、动画等）中展现出巨大潜力。

三年前，强化学习还被认为难以控制，如今，它已成为大模型发展的关键方向。机器学习的进步总是充满惊喜！

访问：www.deeplearning.ai/the-batch/how-deepseek-r1-and-kimi-k1-5-use-reinforcement-learning-to-improve-reasoning/

#多平台宣布上线DeepSeek大模型##DeepSeek现象背后##ai创造营#

DeepLearning AI 最新关于强化学习RL的文章↓《强-20250204101420

正文

2025-02-04 10:14
本条微博链接