专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
河北交通广播  ·  【992 | ... ·  15 小时前  
河北交通广播  ·  【992 | 关注】今天,这里上演巅峰对决! ·  昨天  
河北交通广播  ·  【992 | 关注】DeepSeek,重磅宣布! ·  昨天  
河北交通广播  ·  【992 | ... ·  昨天  
河北交通广播  ·  骇人听闻!“每20个80后就有1人去世”?— ... ·  3 天前  
51好读  ›  专栏  ›  学姐带你玩AI

RSS 2024丨多模态扩散Transformer:从多模态目标中学习多功能行为

学姐带你玩AI  · 公众号  ·  · 2024-12-02 18:22

正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2407.05996

项目主页:https://intuitive-robots.github.io/mdt_policy/

摘要:

这项工作引入了多模态扩散Transformer (MDT),这是一种新颖的扩散策略框架,它擅长从具有少量语言注释的多模态目标规范中学习多种行为。MDT 利用基于扩散的多模态Transformer主干和两个自监督辅助目标来掌握基于多模态目标的长期操纵任务。绝大多数模仿学习方法仅从单个目标模态中学习,例如语言或目标图像。然而,现有的大规模模仿学习数据集仅部分带有语言注释,这禁止当前方法从这些数据集中学习语言条件行为。MDT 通过引入一种潜在的目标条件状态表示来解决这一挑战,该状态表示同时在多模态目标指令上进行训练。这种状态表示将基于图像和语言的目标嵌入对齐,并编码足够的信息来预测未来状态。该表示通过两个自监督辅助目标进行训练,从而增强了所提出的Transformer主干的性能。MDT 在 CALVIN 和 LIBERO 基准测试的 164 项任务中表现出色,其中包括包含不到 2% 语言注释的 LIBERO 版本。此外,MDT 在 CALVIN 操纵挑战中创下了新纪录,与之前需要大规模预训练且包含 10 倍可学习参数的最先进的方法相比,其绝对性能提高了 15%。MDT 展示了其在模拟和现实环境中从稀疏注释数据中解决长期操纵的能力。

1 引言

未来的机器人代理需要能够根据直观的指令表现出所需的行为,类似于人类解释语言或视觉线索以理解任务的方式。然而,当前的方法通常限制代理处理语言指令或视觉目标。这种限制将训练范围限制在完全标记的数据集内,这对于创建多功能机器人代理来说是不可扩展的。

自然语言命令为指导机器人提供了最大的灵活性,因为它是人类直观的交流形式,近年来已成为最流行的机器人训练方法。然而,基于语言指令训练机器人仍然是一项重大挑战。多任务模仿学习 (MTIL) 已成为一种有前途的方法,通过从不同的人类演示中学习,向机器人代理传授各种技能。不幸的是,MTIL 利用的是大型、完全注释的数据集。收集真实的人类演示非常耗时且劳动密集。

规避这些挑战的一种方法是从游戏中学习 (LfP),它利用大量未经整理的数据集。LfP 允许快速收集多样化的演示,因为它不依赖于场景分阶段、任务分割或重置实验。由于这些数据集是以未经整理的方式收集的,因此它们通常包含很少的语言注释。但是,大多数当前的 MTIL 方法都需要对整个训练集进行语言注释,这使得这些方法只能获得太少的演示来训练有效的策略。相反,未来的 MTIL 方法应该能够有效利用像 Open-X-Embodiment 这样具有稀疏语言注释的多样化、跨体现数据集的潜力。这项工作介绍了一种新方法,可以有效地从多模态目标中学习,从而有效地利用具有稀疏语言注释的数据集。

最近,扩散生成模型已成为机器人学习的有效策略表示。扩散策略可以根据语言目标学习富有表现力、多才多艺的行为。然而,目前的方法都无法充分解决从多模态目标规范中学习的挑战。

这项工作引入了一种新颖的基于扩散的方法,能够同时从不同的目标模态(例如语言和图像)中学习多种行为。即使在使用少量语言注释演示的数据进行训练时,该方法也能有效地学习。通过引入两个简单但高效的自监督损失,即蒙版生成预见 (MGF) 和对比潜在对齐 (CLA),性能得到了进一步提高。这些损失鼓励策略学习潜在特征,这些特征编码足够的信息来重建以多模态目标为条件的部分蒙版未来帧。因此,MGF 利用了策略受益于信息潜在空间的洞察力,这些信息潜在空间将目标映射到与其模态无关的期望未来状态。详细的实验和消融表明,额外的损失提高了当前最先进的Transformer和扩散策略的性能,同时将计算开销降至最低。引入的多模态扩散Transformer (MDT) 方法结合了多模态Transformer与 MGF 和潜在标记对齐的优势。MDT 学习多种行为,能够遵循作为语言或图像目标提供的指令。

MDT 为 CALVIN 设定了新标准,CALVIN 是一种流行的语言引导学习基准,它基于由人类演示和少量语言注释组成的游戏数据。值得注意的是,MDT 只需要不到 10% 的可训练参数,并且无需在大型数据集上进行额外的预训练,即可在两项 CALVIN 挑战中实现平均 15% 的绝对性能提升。此外,MDT 在 LIBERO 基准上表现出色,该基准由 5 个任务套件组成,在多个环境中包含 130 个不同的任务。为了展示 MDT 的效率,对任务进行了修改,使得只有 2% 的演示包含语言标签。结果表明,MDT 甚至可以与在完全注释的数据集上训练的最先进的方法相媲美。通过一系列实验和消融,彻底评估了该方法的效率和战略设计选择。本文的主要贡献有三点:

  • 我们引入了多模态扩散Transformer,这是一种基于Transformer的新型扩散方法。MDT 擅长从多模态目标中学习,并在 CALVIN 挑战赛和所有 LIBERO 任务套件中创下了新的最高性能。
  • 两个简单但有效的自监督视觉运动策略损失,可以提高从多模态目标中学习的能力。MGF 和 CLA 提高了从稀疏标记数据集进行多任务行为学习的性能,而无需额外的推理成本。
  • 一项全面的实证研究涵盖了多个基准中的 184 多个不同任务,验证了 MGF 和 MDT 的性能和有效性。

2 相关工作

a) 语言条件机器人学习: 语言是人机交互的直观且易于理解的界面,这引起了机器人社区对语言引导学习方法的日益浓厚的兴趣。越来越多的研究使用这些模型作为视觉和语言抽象的特征生成器,用于下游策略学习和改进的语言表达基础。值得注意的是,像 CLIPPort这样的方法使用冻结 CLIP 嵌入进行语言引导的拾取和放置,而其他方法,如 PaLME和 RoboFlamingo,则微调视觉语言模型以进行机器人控制。其他方法侧重于 LfP 中语言引导操作的分层技能学习。此外,没有层次结构的基于 Transformer 的方法侧重于根据先前的观察标记预测下一步行动。例如,多任务动作分块 Transformer (MT-ACT) 利用变分自动编码器 (VAE) Transformer 编码器解码器策略,仅对当前状态和语言目标进行编码以生成未来动作。

此外,基于扩散的方法已被用作策略表示,可迭代地从高斯噪声中扩散动作。几种扩散策略方法侧重于在不同抽象级别上生成行为生成计划。LAD训练扩散模型,结合 HULC 的低级策略,在 HULC的预训练潜在空间中扩散潜在计划序列。UniPy和 AVDC使用视频扩散模型直接在图像空间中规划,并使用另一个模型执行该计划。与 MDT 相关的框架是 Distill-Down和 Play-Fusion,它们也利用扩散策略进行语言引导的策略学习。这两种方法都使用基于 CNN 的扩散策略的变体。但是,所有这些方法都需要完全注释的数据集来学习语言条件策略。MDT 可以有效地从多模态目标中学习,使其能够利用部分注释的数据集。

b) 机器人技术中的自监督学习: 机器人技术中越来越多的研究工作研究机器人控制的自监督表示。一个关键领域是学习通用视觉表示或世界模型,通常使用掩码策略或对比目标在大型、多样化的离线数据集上进行训练。另一项工作探索了来自多个传感器的机器人策略的稳健表示,使用标记掩码策略或生成视频生成。然而,这些方法需要依赖于多个状态的长期历史的特定转换器模型,这是标记掩码和视频生成技术的限制。值得注意的是,Crossway-Diffusion提出了一种专门针对基于 CNN 的扩散策略设计的自监督损失,通过重新设计 U-net 扩散模型的潜在空间来重建当前图像观察和本体感受特征,从而获得更好的单任务性能。

为了有效地预测未来动作序列,一些最近的方法部署了基于Transformer的策略,这些策略仅对当前状态信息进行编码,而不对先前状态的任何历史记录进行编码。传统的标记掩码策略或视频生成目标依赖于多个状态的标记序列进行预训练,与此类单状态模型不兼容,因为它们依赖于先前状态的历史。为了弥补这一差距,提出的 MGF 和 CLA 目标增强了这些单状态观察策略的能力。MGF 和 CLA 能够有效地从多模态目标中学习多种行为,而无需额外的推理成本,也可用于对无动作数据进行预训练。

c) 基于多模态目标的行为生成: 虽然目标调节机器人学习的最新进展主要集中在语言引导方法上,但人们越来越关注开发能够解释不同模态指令的代理,例如目标图像、草图和多模态组合。Mutex提出了一种模仿学习策略,可以理解自然语音、文本、视频和目标图像中的目标。Mutex 进一步使用跨模态预训练来增强模型对不同目标模态的理解。Steve-1是一个 Minecraft 代理,它使用 VAE 编码器将语言描述转换为任务视频演示的潜在空间,使其能够遵循视频或文本描述的指令。其他研究工作正在探索新的调节方法。示例包括使用当前状态与微调 CLIP 模型中的目标描述之间的余弦距离或采用将文本与图像描述相结合的多模态提示。RtSktech 和 Rt-Trajectory 分别利用所需场景的目标草图和所需运动的草图轨迹提出了两种新的调节方法。虽然 MDT 主要解决两种最常见的目标模式,即文本和图像,但我们的框架在理论上足够灵活,可以纳入草图等其他模式。

3 方法

MDT 是一种基于扩散的 Transformer 编码器-解码器架构,它同时利用了两个自监督辅助目标。即对比潜在对齐和掩蔽生成预见。首先,给出问题定义。接下来,讨论 MDT 的连续时间扩散公式,这对于理解从游戏中学习动作序列至关重要。随后概述了 MDT 提出的 Transformer 架构。之后,介绍了两种新颖的自监督损失。

A. 问题表述

目标条件策略 预测长度为 k 的一系列动作 ,该序列以当前状态嵌入 和潜在目标 g 为条件。潜在目标 封装了目标图像 o 或编码的自由形式语言指令 l。MDT 从一组与任务无关的游戏轨迹 T 中学习此类策略。每个单独的轨迹 τ ∈ T 代表一系列元组 ,其中观察 为动作 。最终的游戏数据集定义为 。在训练期间,为每个数据点创建一组目标 ,其中 是状态 的语言注释(如果数据集中存在)。目标图像 是未来状态,其中偏移量 j 是从边界 j ∈ [20, 50] 和概率为 0.1 的几何分布中采样的。MDT 最大化了播放数据集中的对数似然,

人类行为多种多样,通常存在多条轨迹汇聚成同一目标。策略必须能够编码这种多变的行为,才能有效地从播放中学习。

B. 基于分数的扩散策略

本节介绍了语言引导的扩散策略,用于在有限的语言注释下从游戏中学习长期操作。扩散模型是一种生成模型,它通过迭代去噪过程学习从随机高斯噪声中生成新数据。这些模型经过训练可以减去各种噪声水平的人为添加的噪声。添加和减去噪声的过程都可以描述为连续时间过程随机微分方程 (SDE)。MDT 利用连续时间 SDE 公式:

在图像生成中常用于此。得分函数 由连续扩散变量 t ∈ [0, T] 参数化,其中常数范围 T > 0。此公式将随机性降低为维纳过程 ωt,可解释为添加到动作样本中的无穷小高斯噪声。噪声调度器 σt 定义根据扩散过程的当前时间 t 添加高斯噪声的速率。按照最佳实践,MDT 使用 σt = t 作为策略。噪声扰动范围设置为 σt ∈ [0.001, 80],并将动作范围重新缩放为。函数 βt 描述通过注入新噪声替换现有噪声。该 SDE 因具有相关的常微分方程(概率流 ODE)而引人注目。当在扩散过程的时间 t 处对该 ODE 的动作块进行采样时,它们与分布 对齐,

扩散模型通过分数匹配(SM)学习近似分数函数 ,

其中 是可训练的神经网络。在训练期间,从噪声分布 中随机采样噪声水平并将其添加到动作序列中,模型会预测去噪后的动作序列。为了在部署期间生成动作,将学习到的分数模型插入到反向 SDE 中,然后模型会迭代地对下一个动作序列进行去噪。通过设置 βt = 0,模型会恢复确定性的逆过程,从而无需在逆过程中注入额外的噪声,只需几个去噪步骤即可实现快速采样。详细的训练和推理描述可参见附录的 A 小节。在实验中,MDT 使用 DDIM 采样器以 10 个步骤扩散一个动作序列。

C. 模型架构

MDT 使用多模态Transformer编码器-解码器架构来近似动作序列的条件得分函数。编码器首先处理来自当前图像观察和期望的多模态目标的标记,将这些输入转换为一系列潜在表示标记。解码器充当扩散器,对一系列未来动作进行去噪。图 1 说明了该架构。

图1. 解码器扩散策略概述。(右)用于动作序列去噪的专用扩散 Transformer 块。MDT 从多个图像观察和多模态目标中学习目标条件的潜在状态表示。相机图像通过带有感知器的冻结 Voltron 编码器或 ResNets 进行处理。单独的 GPT 去噪模块使用具有因果注意的 Transformer 解码器迭代地对 10 步的动作序列进行去噪。它由几个去噪块组成,如右侧所示。这些块使用自注意力处理嘈杂的动作标记,并通过交叉注意融合来自潜在状态表示的条件信息。MDT 应用 adaLN 条件来根据当前噪声水平对块进行条件调整。此外,它使用自监督对比学习将相同状态的潜在表示标记与不同的目标规范对齐。潜在表示标记还用作掩蔽图像解码器模块的三、方法上下文输入,以从未来图像中重建被掩蔽的补丁。

首先,MDT 使用图像编码对来自多个视图的当前状态的图像观察进行编码。这项工作引入了 MDT 的两个编码器版本:MDT-V(具有冻结 Voltron 嵌入的变体)和 MDT(具有 ResNets 的默认模型)。MDT-V 编码器利用 Perceiver Resampler 来提高计算效率。Voltron 将每幅图像嵌入到 196 个潜在标记中。Perceiver 模块使用具有交叉注意的多个转换器块将这些 Voltron 标记压缩为总共 3 个潜在标记。此过程会产生一个高效的特征提取器,可利用预训练的 Voltron 嵌入。MDT 编码器使用可训练的 ResNet-18,该 ResNet 具有空间 softmax 池化和每个摄像机视图的组规范。每个 ResNet 为每个图像返回一个观察标记。两个 MDT 编码器版本都通过每个目标模态的冻结 CLIP 模型将目标图像和语言注释嵌入到单个标记中。在嵌入计算之后,两个 MDT 编码器都应用由多个自注意力转换器层组成的相同架构,从而产生一组信息丰富的潜在表示标记。

图 2:蒙版生成前瞻辅助任务增强了 MDT 模型。它首先使用 MDT 编码器对当前观察和目标进行编码。然后,生成的潜在状态表示将作为未来图像解码器的条件输入。该解码器接收未来摄像机图像的编码块以及蒙版标记。其任务是重建未来帧中被遮挡的块。

MDT 扩散解码器使用因果掩蔽对动作序列进行去噪。每个解码器层中的交叉注意力将来自编码器的条件信息融合到去噪过程中。当前噪声水平 σt 使用带有附加 MLP 的正弦嵌入嵌入到潜在噪声标记中。MDT 通过对 Transformer 解码器块进行 AdaLN 条件调节将去噪过程调节为当前噪声水平。图 1 的右侧部分说明了此过程,包括所有内部更新步骤。所提出的框架将表示学习与去噪分开,从而产生一个计算效率更高的模型,因为该模型只需要对潜在表示标记进行一次编码。此外,实验表明,所提出的去噪模型比之前的扩散-Transformer 架构实现了更高的性能。MDT 在所有实验中都使用同一组超参数。

D. 遮蔽的可生成预见

这项研究的一个关键见解是,策略需要信息丰富的潜在空间来了解期望目标将如何在不久的将来改变机器人的行为。因此,能够遵循多模态目标的策略必须将不同的目标模态映射到相同的期望行为。

图 3:用于测试 MDT 的不同环境概览:(左)CALVIN 基准测试由四个环境组成,每个环境的滑块、抽屉、LED 和灯泡都有独特的位置和纹理。(中)LIBERO 基准测试中不同任务和场景多样性的概览,分为 5 个不同的任务套件。(右)来自玩具厨房的真实机器人实验的示例任务,其中模型在部分标记的游戏数据上进行训练后进行测试。

无论目标是通过语言定义还是以图像表示,环境中的中间变化在这些目标模式中都是相同的。提出的 遮蔽的可生成预见 是一个额外的自监督辅助目标,它建立在这一见解之上。给定 MDT(-V) 编码器对状态 和目标 的潜在嵌入,MGF 训练视觉Transformer (ViT) 来重建未来状态 的一系列 2D 图像块 ,其中 v=3 是本研究中所有实验中使用的远见距离。这些块的 U 的随机子集被掩码标记替换。即使 ViT 现在同时接收掩码块和非掩码块,只有掩码块的重建才会导致损失:

其中,如果 u 被掩蔽,则指示函数 为 1,否则为 0。该模型的详细超参数总结在附录的表5中。

MGF 与现有方法不同,现有方法需要对图像或视频进行完全重建。虽然存在各种其他掩蔽方法,但它们都旨在学习当前状态的稳健表示,而 MGF 则重建未来状态以将预见性纳入潜在嵌入。MGF 在概念上很简单,可以普遍应用于所有Transformer策略。第 IV-D 节表明,MGF 的优势不仅限于 MDT,而且还提高了 MT-ACT 的性能。

E. 对齐潜在的目标条件表征

为了有效地从多模态目标规范中学习策略,MDT 必须将视觉目标与语言目标对齐。检索图像和语言输入之间对齐嵌入的常用方法是预训练的 CLIP 模型,该模型已在大量互联网数据集中的成对图像和文本样本上进行训练。然而,CLIP 表现出对静态图像的倾向,并且难以解释空间关系和动态。这些限制导致 MTIL 中的对齐不足,因为机器人技术中的目标规范本质上与当前状态 和期望目标 之间的动态相关。MDT 不是简单地微调大型 3 亿参数 CLIP 模型,而是引入了一个辅助目标,该目标将以不同的目标模态为条件的 MDT(-V) 状态嵌入对齐。这些嵌入包括目标以及当前状态信息,允许 CLA 目标考虑任务动态。

由于 CLA 要求每个目标模态都有一个向量,因此各种 MDT-V 潜在标记通过多头注意力池减少,然后进行规范化。MDT 使用静态图像的嵌入作为代表性标记来计算对比损失。因此,与多模态目标规范 配对的每个训练样本 都会减少为图像和语言目标的向量 。CLA 使用图像目标条件状态嵌入 和语言目标条件状态嵌入 之间的余弦相似度







请到「今天看啥」查看全文