OpenAI最近的新模型o1大家关注了吗?体验了一下雀食功能强大,逻辑和推理能力基本碾压GPT4o。
研究了一下OpenAI给的技术博客,o1采用的是
大模型+强化学习
的策略,通过强化学习进行训练,成功突破LLM推理极限。这种策略一直以来都挺火,结合了俩热点,不仅实现了更高效的学习和更强的泛化能力,也减少了训练成本,提高系统的整体性能。
目前这个方向的研究主要围绕四个技术路线展开:
LLM 作为信息处理者、LLM 作为奖励设计者、LLM 作为决策者、LLM 作为生成者。
最近也有了不少阶段性的成果,比如ICLR 2024的Dynalang以及AMAGO方法。
如果大家想冲顶会,这也是个不错的方向。为了让大家找idea不费时间,我已经根据上述四个技术路线整理了
42篇
最新的论文
,开源代码基本都有。
扫码添加小享,
回复“
强化大模型
”
免费获取
全部论文+开源代码
LLM 作为信息处理者
ReCoRe: Regularized Contrastive Representation Learning of World Model
方法:
论文提出了一种利用不变特征学习的World Model方法ReCoRe,通过最小化对比损失和数据增强技术,实现了在分布外泛化、模拟到现实传输和样本效率方面的显著提升,填补了当前模型在泛化和样本效率上的不足。
创新点:
-
提出了通过对比损失学习不变特征的方法,以提升强化学习模型在分布外(OoD)泛化能力。
-
引入了一种干预不变正则化作为辅助任务,如深度预测,来显式地促进特征学习的稳定性,防止对比学习中特征崩溃。
-
通过将特征学习与控制器的优化分离,提高了样本效率,并简化了控制器学习。
LLM 作为奖励设计者
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
方法:
作者通过“阅读与奖励”框架利用人类书写的说明手册提高强化学习(RL)在Atari游戏中的性能,以解决高样本复杂性问题,通过QA提取模块和推理模块赋予辅助奖励,显著提升A2C等算法的训练速度和性能。
创新点:
-
首次成功将说明书信息用于解决Atari RL基准问题的全自动化和可推广框架。
-
通过QA提取模块和推理模块,将说明书信息转化为辅助奖励提供给RL代理。
-
通过距离跟踪假设简化Atari游戏中的对象互动检测。
-
扫码添加小享,
回复“
强化大模型
”
免费获取
全部论文+开源代码
LLM 作为决策者
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents
方法:
本文介绍了一种名为AMAGO的新算法,旨在解决通用化、长期记忆和元学习的挑战。通过使用长序列Transformer,AMAGO重新设计了离策略的演员-评论者更新,支持从完整回合中并行学习。
创新点:
-
重新设计了离策略actor-critic更新,使得长序列Transformer能够并行学习完整的rollouts,突破了离策略in-context RL在内存长度、模型大小和规划视野方面的瓶颈。
-
此技术在离策略数据上,通过重标长轨迹,构建复杂的多阶段任务,自动生成探索计划。
LLM 作为生成者