专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
河北交通广播  ·  【992 | ... ·  15 小时前  
河北交通广播  ·  【992 | 关注】今天,这里上演巅峰对决! ·  昨天  
河北交通广播  ·  【992 | 关注】DeepSeek,重磅宣布! ·  昨天  
河北交通广播  ·  【992 | ... ·  昨天  
河北交通广播  ·  骇人听闻!“每20个80后就有1人去世”?— ... ·  3 天前  
51好读  ›  专栏  ›  学姐带你玩AI

强化学习+大模型轻松发顶会!不要光想着LLM,OpenAI o1这样做才是对的

学姐带你玩AI  · 公众号  ·  · 2024-11-30 18:12

正文

OpenAI最近的新模型o1大家关注了吗?体验了一下雀食功能强大,逻辑和推理能力基本碾压GPT4o。

研究了一下OpenAI给的技术博客,o1采用的是 大模型+强化学习 的策略,通过强化学习进行训练,成功突破LLM推理极限。这种策略一直以来都挺火,结合了俩热点,不仅实现了更高效的学习和更强的泛化能力,也减少了训练成本,提高系统的整体性能。

目前这个方向的研究主要围绕四个技术路线展开: LLM 作为信息处理者、LLM 作为奖励设计者、LLM 作为决策者、LLM 作为生成者。 最近也有了不少阶段性的成果,比如ICLR 2024的Dynalang以及AMAGO方法。

如果大家想冲顶会,这也是个不错的方向。为了让大家找idea不费时间,我已经根据上述四个技术路线整理了 42篇 最新的论文 ,开源代码基本都有。

扫码添加小享, 回复“ 强化大模型

免费获取 全部论文+开源代码

LLM 作为信息处理者

ReCoRe: Regularized Contrastive Representation Learning of World Model

方法: 论文提出了一种利用不变特征学习的World Model方法ReCoRe,通过最小化对比损失和数据增强技术,实现了在分布外泛化、模拟到现实传输和样本效率方面的显著提升,填补了当前模型在泛化和样本效率上的不足。

创新点:

  • 提出了通过对比损失学习不变特征的方法,以提升强化学习模型在分布外(OoD)泛化能力。
  • 引入了一种干预不变正则化作为辅助任务,如深度预测,来显式地促进特征学习的稳定性,防止对比学习中特征崩溃。
  • 通过将特征学习与控制器的优化分离,提高了样本效率,并简化了控制器学习。

LLM 作为奖励设计者

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals

方法: 作者通过“阅读与奖励”框架利用人类书写的说明手册提高强化学习(RL)在Atari游戏中的性能,以解决高样本复杂性问题,通过QA提取模块和推理模块赋予辅助奖励,显著提升A2C等算法的训练速度和性能。

创新点:

  • 首次成功将说明书信息用于解决Atari RL基准问题的全自动化和可推广框架。
  • 通过QA提取模块和推理模块,将说明书信息转化为辅助奖励提供给RL代理。
  • 通过距离跟踪假设简化Atari游戏中的对象互动检测。
  • 只考虑与代理靠近的互动,为"击中"互动查询手册。

扫码添加小享, 回复“ 强化大模型

免费获取 全部论文+开源代码

LLM 作为决策者

AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

方法: 本文介绍了一种名为AMAGO的新算法,旨在解决通用化、长期记忆和元学习的挑战。通过使用长序列Transformer,AMAGO重新设计了离策略的演员-评论者更新,支持从完整回合中并行学习。

创新点:

  • 重新设计了离策略actor-critic更新,使得长序列Transformer能够并行学习完整的rollouts,突破了离策略in-context RL在内存长度、模型大小和规划视野方面的瓶颈。
  • 此技术在离策略数据上,通过重标长轨迹,构建复杂的多阶段任务,自动生成探索计划。

LLM 作为生成者







请到「今天看啥」查看全文