专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
哔哩哔哩  ·  猫和老鼠来B站,自己鬼畜自己 ·  昨天  
始室  ·  首发 . Destudio 一个安放美好的地方 ·  昨天  
ZaomeDesign  ·  每日灵感丨二月十一日 ·  2 天前  
庞门正道  ·  机械昆虫~变身! ·  3 天前  
哔哩哔哩  ·  战鹰探秘春晚后台,太专业了 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DexDiffuser:用于自适应灵巧操作的交互-觉察扩散规划方法

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-20 00:04

正文

24年11 月来自香港大学、UC Berkeley、上海AI实验室和天津大学的论文“DexDiffuser: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation”。

对于先进的机器人技术来说,具有丰富接触交互的灵巧操作至关重要。虽然最近基于扩散的规划方法有望完成更简单的操作任务,但它们通常会产生不切实际的幽灵状态(例如,物体无需手接触就会自动移动)或在处理复杂的序贯交互时缺乏适应性。DexDiffuser,是一个用于自适应灵巧操作的交互-觉察扩散规划的框架。DexDiffuser 通过双相扩散过程对联合状态-动作动力学进行建模,该过程包括交互前接触对齐和接触后目标导向控制,从而实现目标自适应的可泛化灵巧操作。此外,结合基于动力学模型的双重指导,并利用大语言模型进行自动的指导函数生成,增强了物理交互的泛化能力,并通过语言提示促进了多样化目标的适应。在开门、笔和木块的重定位以及敲击锤子等物理交互任务上进行的实验表明,DexDiffuser 在训练分布外(OOD)目标上非常有效,与现有方法相比,其平均成功率是其两倍多(59.2% vs. 29.5%)。该框架在 30 度开门时的成功率为 70.0%,在笔和木块一半重定位的成功率为 40.0% 和 36.7%,在锤子钉子一半击打的成功率为 46.7%,这凸显了其在接触密集型操作中的鲁棒性和灵活性。


灵巧操作是先进机器人技术的基石,可应用于服务机器人和工业自动化等各个领域。尽管强化学习 (RL) [2, 4, 9, 56, 61] 和模仿学习 [29, 41] 取得了进展,但灵巧操作仍然是一个具有挑战性的问题。最近,基于扩散的规划 [1, 15, 32, 36] 已成为模仿学习的一个有前途的新代表,能够从演示数据中学习复杂的运动轨迹,从而实现更流畅、更适应性的控制。然而,当前的扩散方法主要针对较简单的基于夹持器的操作任务而设计,侧重于通过按序贯到达目标位置来完成轨迹或重放动作。它们无法捕捉更复杂任务所需的分阶段和接触丰富的交互,例如开门和工具处理,这些任务需要灵巧的多指机械手。

目前基于扩散的规划框架,通常可以根据其是否生成动作或状态分为两大类。 基于动作的扩散模型 [15, 66] 在明确定义的任务中表现出色,但在适应具有灵活交互要求的复杂或新任务时往往缺乏通用性,即使在相同的动态中也需要不断收集新目标配置的数据。这限制了它们在接触丰富的交互中的有效性。相比之下, 基于状态的扩散方法 [1, 32, 46],包括从模仿学习的视频扩散模型改编而来的方法 [6, 18],往往会产生不切实际的“幽灵状态”。在这些情况下,目标似乎独立于物理接触做出反应,例如抽屉在机械手到达之前自行打开,或者目标在没有直接交互的情况下在半空中旋转,如图所示。(a) 之前的diffuser直接将目标引导应用于目标状态,这会导致目标独立移动而手部状态保持不变的幽灵状态。(b) DexDiffuser 引入了接触引导,它共同影响手/目标状态和手的动作,同时保持紧密的状态-动作耦合。它不仅可以防止幽灵状态,还可以通过协调的手-目标运动实现精确的目标适应。(c) 在目标适应交互任务上与以前的方法进行定量比较。


如图所示笔重定向时的幽灵状态演示:笔会自动旋转到所需方向,无需任何手动操作,最后手指移动在目标状态下握住笔。


出现这个问题是因为机械手的动作必须先影响其中间状态,然后才能影响目标,这揭示了使用真实的物理驱动交互对状态转换进行建模的重要性。要解决接触丰富的灵巧操作中的这些限制,需要一个既具有交互-觉察能力又能适应任务约束的模型,同时还要以真实的物理行为为基础。


在马尔可夫决策过程(MDP)框架内制定灵巧操作规划问题[48]。按照 [1, 32] 的方法,利用扩散模型来解决这个规划问题,将状态或动作轨迹 τ 视为序列数据。扩散的逆过程通过条件概率学习从标准正态分布中去除轨迹噪声。

为了生成高奖励轨迹,无分类器引导方法 [16] 已从图像转移到轨迹生成 [1]。在采样过程中,采用重参数化技术生成具有修改后噪声的轨迹。

虽然无分类器扩散提供一种简化的方法,但其调节灵活性仅依赖于训练数据中的隐式表示。相比之下,分类器引导方法通过基于梯度的引导实现直接奖励或目标调节。

为了实现奖励最大化,在时间步 t 处引入轨迹优化 Ot,遵循一个伯努利分布。扩散过程可以自然扩展来结合调节,通过从扰动分布中的采样。

目前,基于扩散的方法被广泛用于机器人操作,但在应用于灵巧的序贯交互任务时,却显示出明显的局限性。下表概述了主要的基于扩散方法(包括diffuser [32]、决策diffuser [1]、扩散策略 [15] 和 DexDiffuser),并根据它们的条件方法、动作生成方法和目标适应性对每种方法进行分类。



DexDiffuser,一种交互-觉察的扩散规划框架,如图所示,它可以保持物理一致性并实现灵活的目标调整,以实现灵巧的操作。


联合状态-动作扩散模型 。该方法建立在分类器引导的扩散模型之上。但是,在连接的状态-动作空间 τ = [(a/0 , s/0 ), (a/1 , s/1 ), ..., (a/T , s/T )] 上进行联合扩散。这种设计选择直接解决了关键限制:(1)通过将状态纳入扩散过程,可以实现显式的状态调节和目标指定,克服仅限动作方法的局限性;(2)通过分类器引导的扩散,允许灵活的目标调整,而无需详尽的训练数据;(3)通过联合建模状态和动作,保持它们的物理耦合,同时通过精心设计的指导防止幽灵状态。在执行过程中,用去噪状态的生成动作进行指导,有效地弥合状态调节和动作精度之间的差距。

扩展的分类器引导扩散策略公式 。在基本分类器引导扩散框架的基础上,扩展公式以同时适应复杂交互任务的多个指导(或约束)。其通过专家乘积 [24] 泛化,其中每个专家代表一个特定的行为模型。该公式允许通过各自的指导函数组合多个目标(例如,在保持物理一致性的同时达到目标状态)。在适当的平滑条件下,反向扩散过程中的指导梯度 g 可以分解为各个指导梯度的总和。这使得多个引导信号能够集成,每个信号都针对交互任务的不同方面,同时保持一致的优化目标。

基于接触的任务引导 。对于基于接触的操纵任务,例如开门和使用工具,DexDiffuser 采用双相交互方法,该方法承认接触建立之前和之后的交互不同性。该框架根据手掌位置和目标上指定接触点之间的距离自动确定相变,并应用平滑过渡掩码在各相之间进行混合。

在预抓取阶段,该框架专注于引导机械手与交互点实现稳定对齐,同时防止过早的目标作用。设计两个主要引导组件:1)对齐引导,将末端执行器引导至精确的交互点,同时保持自然的接近轨迹;2)动态一致性指导,利用单独训练的变换模型来确保物理上合理的运动模式。

建立接触(由手掌与目标的接近度决定)后,抓握后阶段会激活其他指导机制:1)目标导向指导,引导耦合的手-目标系统朝向目标配置;2)物理约束指导,防止不切实际的状态变化(例如,限制门铰链和闩锁角度的每步变化);3)持续的动态指导,以保持运动可行性。

手中操作指导 。对于主要涉及手中操作(例如,旋转笔、重定位目标)的任务,其中目标通常已经在手中或快速过渡到手中状态,采用简化的单相指导结构:1)目标状态指导,用于实现目标物体配置;2)主动手指运动指导,以确保逼真的目标操作;3)动态一致性指导,以保持物理合理性;4)物理约束指导,防止不切实际的状态变化。

动力学-觉察生成 。联合状态-动作扩散的一个关键挑战是在去噪过程中保持生成的状态和动作之间的一致性 [32]。该框架通过基于演示数据训练的学习动态模型解决了这个问题,该模型在轨迹生成过程中起着关键指导作用。通过惩罚违反观察物理模式的状态-动作对,该指导确保联合扩散既保持状态条件优势,又保持动作可行性。


传统上,针对扩散策略设计特定于任务的指导函数需要大量人工,特别是对于各种灵巧操作任务。为了应对这一挑战,利用大语言模型进行自动指导生成,采用强化学习文献中的文本-到-奖励范式 [40, 63]。







请到「今天看啥」查看全文