专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【[661星]Meridian:谷歌推出的营 ... ·  昨天  
爱可可-爱生活  ·  【[832星]Swift ... ·  昨天  
量子位  ·  首个OpenAI免费推理模型o3-mini发 ... ·  3 天前  
爱可可-爱生活  ·  【[66星]PengChengStarlin ... ·  5 天前  
51好读  ›  专栏  ›  黄建同学

DeepLearning AI 最新关于强化学习RL的文章↓《强-20250204101420

黄建同学  · 微博  · AI  · 2025-02-04 10:14

正文

2025-02-04 10:14

DeepLearning AI 最新关于强化学习RL的文章↓

《强化学习加速大模型推理能力》

DeepSeek-R1 和 Kimi k1.5 如何利用强化学习优化推理过程?

强化学习正成为提升大模型推理能力的新路径。DeepSeek-R1 及其变体 DeepSeek-R1-Zero,以及 Kimi k1.5 通过强化学习改进推理链,提高数学、编程、科学等领域问题的解题能力。

★ 核心思路:

1. 强化学习为模型设定奖励机制,鼓励其生成正确的推理步骤,而非单纯预测下一个 token。

2. DeepSeek 团队发现,仅使用强化学习微调(在预训练基础上),DeepSeek-R1-Zero 就能学会双重检查答案,但也会出现混用多种语言等问题。通过在强化学习前进行少量监督微调,DeepSeek-R1 改善了这一点。

3. Kimi k1.5 通过类似策略,在强化学习前训练长推理链,使其能自主形成解题策略,但初步结果生成的答案较长,计算成本较高。团队随后增加了一轮强化学习,优化生成更短但仍然准确的回答。

4. 这一策略在数学基准测试 AIME 2024 和 MATH-500 上显著减少了答案 token 数量,同时保持准确率。OpenAI 也曾使用强化学习优化 o1 模型的推理能力,尽管具体细节未公开。

★ 为什么重要?
过去,强化学习主要用于游戏 AI 和机器人控制,在 LLM 训练中,主要用于对齐人类偏好(如 RLHF 和 RLAIF)。如今,它正成为提升推理能力的重要手段,尤其是在更复杂的任务(数学、编程、动画等)中展现出巨大潜力。

三年前,强化学习还被认为难以控制,如今,它已成为大模型发展的关键方向。机器学习的进步总是充满惊喜!

访问:www.deeplearning.ai/the-batch/how-deepseek-r1-and-kimi-k1-5-use-reinforcement-learning-to-improve-reasoning/

#多平台宣布上线DeepSeek大模型##DeepSeek现象背后##ai创造营#