DeepSeek-R1同款算法！强化学习2025发论文的核心思路

AI算法科研paper · 公众号 · · 2025-02-08 19:05

正文

最近DeepSeek-R1系列犹如一记炸雷响彻整个AI圈，功能比肩ChatGPT-o1还是开源，用过之后大家纷纷宣布退订20刀乐（hh）。

而DeepSeek-R1最关键的创新其实已经发布了，就是LLM 强化学习 算法GRPO（还有多阶段训练策略）。这个在RL领域的创新为学术界和工业界提供了重要的思路，尤其在 复杂任务训练范式、算法效率优化以及RL与模型架构协同设计 等方面。同时，它也为未来RL的研究指明了方向—— 以工程落地为导向，追求算法简洁性、训练高效性、任务普适性 ，啊对，还有开源（doge）。

为方便刚入门RL的小白以及想要进一步创新的同学了解前沿，我整理了 100篇 强化学习相关的新论文 ，主要涉及RL与其他技术协同，以及它自身改进等方面，代码开源的都放上了，觉得有用不妨点个赞支持下~

扫码添加小享， 回复“ 强化改进 ”

免费获取 全部方案+开源代码

Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning

方法： 本文研究通过纯强化学习提升大型语言模型推理能力，提出DeepSeek-R1-Zero和DeepSeek-R1两种模型，依托多阶段训练和冷启动数据，显著提高数学、编码等推理任务表现，并通过蒸馏技术将推理能力传递至小型模型，从而填补现有研究在纯RL应用于推理领域的空白。

创新点：

DeepSeek-R1-Zero首次应用纯强化学习（RL）直接训练基础模型，而不依赖于监督微调（SFT），实现了卓越的推理能力。
大模型的推理模式可以成功蒸馏至小模型中，且其性能优于在小模型上直接应用RL发现的推理模式。

Attention Graph for Multi-Robot Social Navigation with Deep Reinforcement Learning

方法： 论文介绍了一个名为MultiSoc的新方法，它结合了强化学习和注意力机制来学习多智能体系统中的社交意识导航策略，展示了其在多智能体隐式协调及处理多种人类行为策略方面的优越性，同时引入可定制的邻域密度元参数，以适应不同的导航需求。

创新点：

MultiSoc 模型是第一个用于多机器人社会导航的基于图的交互模型。
MultiSoc 引入了一个可定制的元参数，用于调整每个机器人导航策略中需要考虑的邻域密度。
通过使用图神经网络和强化学习，MultiSoc 模型实现了在复杂人群导航中的多智能体隐式协调能力。

扫码添加小享， 回复“ 强化改进

DeepSeek-R1同款算法！强化学习2025发论文的核心思路

正文

Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning

Attention Graph for Multi-Robot Social Navigation with Deep Reinforcement Learning

请到「今天看啥」查看全文