专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

强化学习+大模型轻松发顶会！不要光想着LLM，OpenAI o1这样做才是对的

学姐带你玩AI · 公众号 · · 2024-11-30 18:12

正文

OpenAI最近的新模型o1大家关注了吗？体验了一下雀食功能强大，逻辑和推理能力基本碾压GPT4o。

研究了一下OpenAI给的技术博客，o1采用的是 大模型+强化学习 的策略，通过强化学习进行训练，成功突破LLM推理极限。这种策略一直以来都挺火，结合了俩热点，不仅实现了更高效的学习和更强的泛化能力，也减少了训练成本，提高系统的整体性能。

目前这个方向的研究主要围绕四个技术路线展开： LLM 作为信息处理者、LLM 作为奖励设计者、LLM 作为决策者、LLM 作为生成者。 最近也有了不少阶段性的成果，比如ICLR 2024的Dynalang以及AMAGO方法。

如果大家想冲顶会，这也是个不错的方向。为了让大家找idea不费时间，我已经根据上述四个技术路线整理了 42篇 最新的论文 ，开源代码基本都有。

扫码添加小享， 回复“ 强化大模型 ”

免费获取 全部论文+开源代码

方法： 论文提出了一种利用不变特征学习的World Model方法ReCoRe，通过最小化对比损失和数据增强技术，实现了在分布外泛化、模拟到现实传输和样本效率方面的显著提升，填补了当前模型在泛化和样本效率上的不足。

创新点：

方法： 作者通过“阅读与奖励”框架利用人类书写的说明手册提高强化学习（RL）在Atari游戏中的性能，以解决高样本复杂性问题，通过QA提取模块和推理模块赋予辅助奖励，显著提升A2C等算法的训练速度和性能。

创新点：

扫码添加小享， 回复“ 强化大模型 ”

免费获取 全部论文+开源代码

方法： 本文介绍了一种名为AMAGO的新算法，旨在解决通用化、长期记忆和元学习的挑战。通过使用长序列Transformer，AMAGO重新设计了离策略的演员-评论者更新，支持从完整回合中并行学习。

创新点：

重新设计了离策略actor-critic更新，使得长序列Transformer能够并行学习完整的rollouts，突破了离策略in-context RL在内存长度、模型大小和规划视野方面的瓶颈。
此技术在离策略数据上，通过重标长轨迹，构建复杂的多阶段任务，自动生成探索计划。