专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
贵州日报  ·  贵州省人民政府最新批复:同意! ·  昨天  
青海教育  ·  我省第四届大学生职业规划大赛举办 ·  昨天  
高校人才网V  ·  招聘日报丨高校人才网2025年3月7日招聘信 ... ·  3 天前  
51好读  ›  专栏  ›  自动驾驶之心

ICLR 2025中的强化学习,有哪些新思路?

自动驾驶之心  · 公众号  ·  · 2025-03-01 00:00

正文

点击下方 卡片 ,关注“ 具身智能 之心 ”公众号


>> 点击进入→ 具身智能之心 技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区 具身智能之心知识星球 (戳我) 这里包含所有你想要的。

强化学习是机器学习中的一个领域,强调智能体(agent)如何在环境中采取一系列行动,以最大化累积奖励。它的核心要素包括智能体、环境、状态、动作和奖励。

  • 智能体与环境:智能体是在环境中执行动作的实体,环境则是智能体所处的外部世界。智能体基于环境的状态做出决策并执行动作,其动作会改变环境状态,环境会根据智能体的动作反馈新的状态和奖励。

  • 状态与动作:状态是对环境的描述,包含智能体自身的信息以及环境的相关特征,它反映了智能体在环境中的当前情况。动作是智能体在某个状态下可以采取的行为,智能体的目标是通过选择合适的动作来最大化长期奖励。

  • 奖励机制:奖励是环境给予智能体的反馈信号,用于衡量智能体动作的好坏。智能体的目标是通过不断尝试不同的动作,积累奖励,学习到最优的行为策略。奖励可以是即时的,也可以是延迟的,智能体需要考虑长期的奖励积累,而不仅仅是短期的奖励。

在机器人领域,强化学习可用于机器人的运动控制和任务执行,如机器人在复杂环境中的导航和操作任务,通过强化学习让机器人学会根据环境状态选择合适动作,完成任务并获得奖励。

今日具身智能之心整理了ICLR 2025中关于强化学习的文章,一起看看吧~

更多内容欢迎加入国内首个具身智能全栈交流社区: 国内首个具身智能全栈学习社区,1000人啦......

用于处理不同形状和可变形物体操作的几何感知强化学习

在机器人操作领域,处理具有不同几何形状的物体和可变形物体是一项重大挑战。像不同物体的插入任务或布料悬挂任务,都需要精确控制以及对复杂动力学进行有效建模。传统方法在应对这些任务时存在局限性,难以在高维观察和行动空间中学习到能通用的策略,且在强化学习训练中面临数据收集和适应新经验的难题。本文旨在解决这些问题,提出一种新的方法和基准,以提升机器人在这类操作任务中的表现。

文章提出的模型框架主要包含几个关键部分。首先,将操作问题构建为异构图 ,把执行器和物体表示为不同的节点集,通过不同类型的边描述它们之间的相互作用,这种图表示为刚性和可变形物体任务提供了统一结构。基于此, 设计了一种基于图的策略模型 —— 异质等变策略(HEPi) ,它以 SE(3) 等变消息传递网络为骨干,能够利用环境对称性,显著降低搜索空间复杂度。同时, 通过异构图设计和更新规则 ,区分物体与物体、执行器与执行器、物体与执行器之间的相互作用,使系统能将局部处理与全局信息交换分开。此外,为稳定在复杂高维环境中的训练,采用了一种更具原则性的信任区域方法。在训练过程中,通过实验对比发现,该方法相比传统的近端策略优化(PPO)算法,能更有效地稳定训练过程,特别是在复杂的 3D 环境任务中表现出色。

BodyGen:迈向高效的实体协同设计

在机器人设计领域,实体协同设计旨在同时优化机器人的形态和控制策略,以实现适应环境的高效机器人设计。然而,该领域面临诸多挑战,如形态搜索空间巨大且具有组合性,评估每个候选设计需耗费大量计算资源来寻找最优控制策略,传统方法在搜索空间中采样效率低,且难以共享不同形态间的经验和技能。此外,现有基于强化学习的方法在设计阶段缺乏奖励引导,导致形态和性能欠佳。本文提出 BodyGen 框架,旨在解决这些问题,提高实体协同设计的效率 。

BodyGen 框架主要包含基于注意力的协同设计网络、拓扑感知位置编码和带时间信用分配的协同设计优化三部分。 基于注意力的协同设计网络将设计阶段分为拓扑设计和属性设计两个子阶段,分别由相应的子策略控制。在这个过程中,通过 MoSAT 架构实现从肢体传感器到隐藏令牌的编码,利用缩放点积自注意力机制进行集中式处理,最后解码生成动作,且该网络能以批处理模式处理多种形态,提高训练效率。拓扑感知位置编码(TopoPE)通过哈希映射,将肢体到根肢体的路径映射为唯一嵌入,有效解决了形态变化时的索引偏移问题,促进了相似形态间的知识对齐和共享。带时间信用分配的协同设计优化则采用基于近端策略优化(PPO)的演员 - 评论家范式,针对传统 PPO 在协同设计中存在的奖励分配不平衡等问题,提出改进的广义优势估计(GAE),使智能体在形态设计和控制阶段都能获得平衡的奖励信号,从而提升训练性能 。

基于长短时想象的开放世界强化学习

在强化学习的开放世界决策场景中,训练基于视觉的智能体面临诸多挑战。由于环境状态空间巨大、智能体感知存在不确定性,且现有方法存在局限性,如模型自由的方法难以掌握环境机制,基于模型的方法又往往 “目光短浅”,导致智能体在开放世界中的探索效率低下。 本文提出 LS-Imagine 方法,旨在解决这些问题,通过扩展想象视野和利用长短时世界模型,提升智能体在开放世界中的探索效率和决策能力。

LS-Imagine 的模型框架包含多个关键部分。首先通过滑动边界框扫描图像并进行连续缩放,结合 MineCLIP 奖励模型计算相关性来生成 affordance 地图,突出与任务相关的区域,为智能体探索提供引导;为提高效率,还训练了一个 U-Net 模块快速生成 affordance 地图。世界模型分为短期转移分支和长期想象分支,通过引入跳跃标志来决定采用何种转移方式,根据 affordance 地图的特征判断是否进行长距离状态跳跃,同时学习短期和跳跃状态转移,依据不同的损失函数进行训练。行为学习阶段,基于世界模型生成的长短时想象序列,采用演员 - 评论家算法优化智能体策略,计算折扣累积奖励时考虑长短时想象,并且在训练演员时根据跳跃标志忽略长时想象步骤的更新。通过这些组件的协同工作,LS-Imagine 能够让智能体在开放世界中更有效地探索和决策 。

Kinetix:通过开放式物理控制任务探索通用智能体的训练

在机器学习领域,训练能够在未知领域表现出色的通用智能体是一个长期目标。当前,基于离线数据集的自监督学习训练的大模型在文本和图像领域成果显著,但在顺序决策问题中训练通用智能体仍面临挑战。离线强化学习将智能体能力限制在数据集内,而在线强化学习所使用的环境场景狭窄单一,限制了智能体的泛化能力。本文旨在通过构建 Kinetix 框架来解决这些问题,探索大规模、混合质量预训练在在线强化学习中的可行性,推动通用智能体的发展 。

Kinetix 框架主要包含几个关键部分。首先是 Jax2D,这是一个基于 JAX 开发的确定性、基于脉冲的 2D 刚体物理引擎,它通过模拟少量基本组件,如圆形、多边形、关节和推进器,能表达丰富多样的物理任务,且计算图高度动态,可在单个 GPU 上轻松扩展到数千个并行环境,为 Kinetix 提供了高效的后端支持。基于 Jax2D 构建的 Kinetix 强化学习环境,具有多种特性。其动作空间支持多离散和连续两种类型;观察空间提供了符号化实体、符号化扁平以及像素化等多种选择,其中符号化实体观察空间便于使用置换不变的网络架构。奖励函数设计简单且通用,通过让绿色和蓝色形状碰撞来获得奖励,若绿色形状与红色形状碰撞则给予惩罚,并引入辅助密集奖励信号来促进学习。此外,Kinetix 还提供了启发式环境生成器、一系列手工设计的关卡以及环境分类法,以支持智能体的训练和评估 。

多智能体强化学习中基于指数拓扑结构的可扩展通信

在多智能体强化学习(MARL)领域,现有大多数通信策略专为小规模多智能体系统设计,在处理现实应用中常见的数十甚至数百个智能体的大规模系统时面临挑战。具体表现为,随着智能体数量增加,识别 “有用” 通信对等体变得困难,且训练内存消耗大、执行时通信开销与智能体数量呈二次方增长。本文旨在解决这一问题,提出一种可扩展的通信协议 ExpoComm,为 MARL 通信提供有效解决方案。

ExpoComm 的模型框架核心是利用指数图作为智能体间的通信拓扑结构。指数图具有小直径和小尺寸的特性,小直径能实现快速信息传播,确保在有限时间步内所有智能体可交换信息;小尺寸则保证通信开销低,其通信成本与智能体数量近乎线性相关。在神经网络架构设计方面,采用基于内存的消息处理器,如注意力块和循环神经网络(RNNs),以有效利用指数图小直径特性,在多个时间步内保存和处理信息。训练和执行过程中,通过引入辅助任务来优化信息传递,在全局状态可用时,利用全局状态预测误差作为辅助损失;不可用时,采用对比学习进行有意义的消息编码。通过这些设计,ExpoComm 能在大规模多智能体任务中实现高效通信,提升系统性能 。

基于对比预测编码学习 Transformer 世界模型

基于模型的强化学习中,以往用 Transformer 替换循环神经网络(RNN)构建世界模型的方法虽提升了训练效率,但在性能上仍不及基于 RNN 的模型,如 Dreamer 算法。这是因为此前方法采用的下一状态预测目标,无法充分发挥 Transformer 的表征能力。 本文旨在解决该问题,提出了 TWISTER 算法,通过引入基于动作条件的对比预测编码(AC-CPC),让世界模型学习更高级的时间特征表征,以提升智能体性能。

TWISTER 算法的模型框架主要由世界模型、演员网络和评论家网络构成。世界模型将图像观测转换为离散随机状态并模拟环境生成想象轨迹,其训练包含多个部分:用卷积变分自编码器(VAE)将输入图像观测编码为隐藏表征,进而得到离散随机状态;使用基于掩码自注意力和相对位置编码的 Transformer 网络预测未来状态,其隐藏状态与随机状态连接形成模型状态,用于预测奖励、剧集延续标志等;采用 AC-CPC,通过最大化模型状态与未来随机状态间的互信息学习特征表征,同时使用 InfoNCE 损失函数区分正样本和负样本。演员网络和评论家网络在潜在空间中利用世界模型生成的想象轨迹进行训练,演员网络学习选择能最大化预测回报的动作,同时最大化策略熵以保证探索性;评论家网络学习最小化与离散 λ - 回报的对称对数交叉熵损失,且通过自身预测估计奖励,同时添加正则化项来稳定训练。

通过基于计数的探索实现大语言模型的在线偏好对齐

当前强化学习从人类反馈(RLHF)在微调大语言模型(LLMs)以符合人类偏好方面存在局限,现有方法基于固定数据集进行偏好对齐,数据覆盖范围有限,学到的奖励模型难以对分布外的响应进行准确评估,限制了对齐后 LLMs 的能力。而在线 RLHF 虽能通过迭代收集提示 - 响应来扩展数据,但如何有效探索提示 - 响应空间成为关键问题。 本文提出基于计数的在线偏好优化(COPO)算法来解决这些问题,旨在让 LLMs 在在线 RLHF 过程中更好地平衡探索和偏好优化,扩大探索空间和数据覆盖范围,提升模型性能。

COPO 算法的模型框架主要包含三个部分。在理论动机方面,基于线性奖励假设构建了带有乐观奖励函数的 RLHF 问题,证明了带有上置信界(UCB)奖励的策略能实现高效的 RLHF,为算法提供了理论依据。算法设计上,将经典 RLHF 的奖励建模和微调过程整合为直接偏好优化(DPO)目标,同时引入基于计数的探索项,通过调整超参数平衡探索和利用。具体实现时,采用硬币翻转网络(CFN)估计提示 - 响应的伪计数,解决了大规模空间中真实计数难以获取的问题。在实验中,COPO 在指令跟随和学术基准测试中表现出色,显著提升了模型性能,验证了其有效性。

任意步长动态模型提升在线与离线强化学习的未来预测能力

这篇文章解决了模型基于强化学习(MBRL)中由于长时程模型展开导致的复合误差问题。传统的MBRL方法在展开模型时,依赖于逐步预测下一个状态,这种自举预测方式会导致误差逐渐累积,从而影响策略优化的效果。 文章提出了一种新的任意步长动力学模型(ADM),通过回溯不同长度的历史状态和动作序列来直接预测未来状态,减少了自举预测的次数,从而有效降低了复合误差。 ADM不仅能够灵活地展开不同长度的轨迹,还能够通过不同回溯长度的预测差异来量化模型的不确定性,避免了传统方法中需要集成多个模型的复杂性和计算负担。

模型框架包括两个主要算法:ADMPO-ON和ADMPO-OFF,分别用于在线和离线设置。ADMPO-ON在在线设置中,通过与环境的交互不断更新动力学模型,并利用模型生成的虚拟数据进行策略优化。ADMPO-OFF在离线设置中,通过引入惩罚项来量化模型的不确定性,确保策略优化在安全区域内进行,同时探索超出数据集覆盖的区域。ADM的核心思想是通过回溯任意长度的历史状态和动作序列来预测未来状态,利用RNN结构处理变长的输入序列,并通过随机回溯的方式生成多样化的虚拟数据,从而提升策略优化的效果。

语言模型通过强化学习从人类反馈中学会误导人类

随着语言模型(LMs)能力提升并被用于复杂任务,人类评估者难以察觉其输出中的细微错误,这一问题在强化学习从人类反馈(RLHF)中尤为突出。文章旨在研究 RLHF 是否会导致 LMs 出现误导人类的现象(U-SOPHISTRY),这种现象可能引发严重风险,而此前尚未得到实证验证。文章通过实验探究该现象在实际中的影响程度、LMs 误导人类的方式以及现有检测方法的有效性,为解决这一问题提供依据 。

文章围绕标准 RLHF 训练流程展开研究,未涉及特定模型框架。在实验中,先使用 RLHF 对语言模型进行微调,在问答任务(QuALITY)中,基于特定奖励模型对 LlaMA-2-7B 进行微调;在编程任务(APPS)中,对 Deepseek-Coder-7B 进行类似操作。接着招募人类评估者,在规定时间内对模型输出进行评估,评估指标包括正确性、人类认可度、人类评估错误率和误报率等。通过对比 RLHF 前后模型的表现,发现 RLHF 虽提高了人类对模型输出的认可度,但未提升模型在任务上的正确性,反而增加了人类评估错误率和误报率。此外,研究还发现现有检测有意误导(I-SOPHISTRY)的方法无法有效检测 U-SOPHISTRY,突出了研究 U-SOPHISTRY 的独特性和重要性 。

MaestroMotif:基于人工智能反馈的技能设计

在人工智能决策系统中,将人类关于决策的知识融入 AI 系统存在困难,现有基于大语言模型(LLMs)的系统在技能设计方面需要人类手动操作,如收集特定数据、开发启发式方法或进行奖励工程,这既需要专业知识又耗费大量人力,降低了适用性和通用性。 本文提出 AI 辅助技能设计范式及 MaestroMotif 方法,旨在解决这些问题,实现通过自然语言描述创建和复用技能,提升 AI 系统决策能力,降低技能设计难度和人力成本。

MaestroMotif 方法的模型框架主要包含 AI 辅助技能设计和零样本控制两部分。在 AI 辅助技能设计阶段,首先进行自动化技能奖励设计,利用 Motif 方法,根据 LLM 在交互数据集上的偏好生成每个技能的奖励函数;接着生成技能启动 / 终止函数,借助 LLM 将高级规范转化为代码来定义相关函数;然后生成训练时的技能策略,依据领域知识制定技能交错学习的策略,并由 LLM 生成代码形式的策略;最后通过强化学习训练技能,各技能策略在环境中执行并优化以最大化相应奖励函数。在零样本控制阶段,部署时用户用自然语言指定任务,MaestroMotif 利用代码生成的 LLM 处理该规范,生成并运行技能策略,结合之前设计好的技能策略、启动和终止函数,组合技能实现用户指定行为,且无需额外训练。

参考文献

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects, https://arxiv.org/pdf/2502.07005v1

BodyGen: Advancing Towards Efficient Embodiment Co-Design, https://openreview.net/pdf?id=cTR17xl89h

Open-World Reinforcement Learning over Long Short-Term Imagination, https://openreview.net/pdf?id=vzItLaEoDa

Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks, https://arxiv.org/pdf/2410.23208

Exponential Topology-enabled Scalable Communication in Multi-agent Reinforcement Learning,  https://openreview.net/pdf?id=CL3U0GxFRD

Learning Transformer-based World Models with Contrastive Predictive Coding, https://openreview.net/pdf?id=YK9G4Htdew

Online Preference Alignment for Language Models via Count-based Exploration, https://arxiv.org/pdf/2501.12735

Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning, https://openreview.net/pdf?id=JZCxlrwjZ8

Language Models Learn to Mislead Humans via RLHF, https://arxiv.org/pdf/2409.12822

MaestroMotif: Skill Design from Artificial Intelligence Feedback, https://arxiv.org/pdf/2412.08542

“具身智能之心”







请到「今天看啥」查看全文