专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
能源电力说  ·  河南微电网怎样建? ·  昨天  
能源电力说  ·  河南微电网怎样建? ·  昨天  
企业专利观察  ·  汤森路透的胜利,是否为“AI版权化”开了绿灯 ·  昨天  
企业专利观察  ·  汤森路透的胜利,是否为“AI版权化”开了绿灯 ·  昨天  
你的Sneaker  ·  全国多地发售!Nike Kobe 6 ... ·  昨天  
你的Sneaker  ·  全国多地发售!Nike Kobe 6 ... ·  昨天  
能源电力说  ·  远不止储能!特斯拉上海储能超级工厂投产 ·  2 天前  
能源电力说  ·  远不止储能!特斯拉上海储能超级工厂投产 ·  2 天前  
闽南日报  ·  抖音、快手、微信同日宣布:下架! ·  3 天前  
闽南日报  ·  抖音、快手、微信同日宣布:下架! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

VidMan: 利用视频扩散模型中的隐动力学实现有效的机器人操控

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-21 00:12

正文

24年11月来自中山大学深圳分校、鹏城实验室和华为诺亚实验室的论文“VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation”。

利用大规模视频数据学习视频生成模型的最新进展表明,它在理解复杂物理动力学方面具有巨大潜力。它表明利用多样化的机器人轨迹数据来开发统一的动力学-觉察模型以增强机器人操纵的可行性。然而,考虑到可用的机器人数据量相对较少,直接拟合数据而不考虑视觉观察和动作之间的关系可能会导致数据利用率不理想。为此,提出 机器人操纵的视频扩散(VidMan) ,它采用受神经科学dual process 理论启发的两步训练机制,以增强稳定性和提高数据利用效率。具体来说,在第一步,VidMan 在 Open X-Embodiment 数据集(OXE)上进行预训练,以视频去噪扩散的方式预测未来的视觉轨迹,使模型能够发展对环境动态的长范围-觉察。在第二步,引入灵活而有效的分层自注意适配器,将 VidMan 转换为高效的逆动力学模型,该模型通过参数共享来预测由隐动力学知识调节的动作。VidMan 框架在 CALVIN 基准上的表现优于最先进的基线模型 GR-1,实现了 11.7% 的相对改进,并在 OXE 小规模数据集上实现了超过 9% 的精度提升。

如图所示:



在快速发展的机器人领域,根据传感输入准确预测和执行精确动作至关重要。虽然传统的机器人操控方法 [1–5] 通常依赖于劳动密集型的手工设计特征和容易出错的模型,但数据驱动方法 [6–8] 提供了有希望的解决方案。然而,挑战在于获取高质量机器人数据的难度和成本。最近的进展 [9–12],特别是利用大规模在线视频数据来学习视频生成器的进展,在理解现实世界的复杂物理动态方面表现出巨大的潜力。这些模型经过了不同的数据集 [13, 8] 的训练,对世界有着细致入微的理解,这表明可以融合和利用各种机器人视觉轨迹数据 [14–16] 来开发统一的动力学-觉察模型,以增强机器人操控。然而,实现这种统一带来了挑战;仅仅拟合数据而不考虑视觉观察和动作之间的关系可能会导致数据利用率不理想。因此迫切需要开发有效的训练机制和模型架构,以有效利用现有的跨机器人和跨场景数据来提高动作预测准确性。

语言引导的机器人操作 。语言引导的机器人操作,已成为一种灵活而直接指导机器人执行各种任务的方法 [14, 23]。一些现有方法 [24, 25, 10, 26–30] 利用大语言模型 (LLM) 来规划任务域,并将指令传递给低级动作策略以生成机器人动作。分层 2D 策略 [31–33] 根据语言指令预测子目标的潜特征或图像,并将其输入到低级子目标条件策略中。3D 策略 [34, 35] 将 3D 表示与扩散目标相结合,使用深度图和相机外参从演示中学习操作。一些方法 [36, 37] 还利用 3D [38–40] 或 2D [41–43] 检测来识别目标,并使用约束优化方法来控制机器人操作。另一项工作是从非结构化游戏数据中学习语言条件策略,这些数据包含带有和不带有语言标签的演示 [44, 32]。这些方法利用序列-到-序列条件变分自动编码器来生成潜规划,然后将其用于调节动作策略。

机器人操作的预训练 。近年来,机器人学习的预训练领域引起了广泛关注 [9, 26, 11, 45]。一些方法旨在通过掩码图像建模 [9] 和对比学习 [11] 来学习有用的视觉表征。先前的研究 [46、7、47、45、25、48] 专注于赋予机器人和其他智体理解和执行语言指令的能力,通常是通过学习以语言为条件的策略。GR-1 [9] 和 RoboFlamingo [26] 使用 GPT 风格的框架将动作预测建模为 CALVIN 数据集 [14] 中的token预测任务,并取得了良好的效果。


机器人操作的视频扩散(VidMan), 采用双步训练策略:在第一步,即动态-觉察梦想阶段,利用视频扩散模型的多帧预测能力,使模型能够根据历史观察,预测和想象潜在的未来轨迹。通过此阶段,对模型进行优化以了解环境的动态。在第二步,即动态调节动作阶段,引入了一个轻量级的分层适配器,将梦想预测阶段与快速自适应动作预测无缝集成。这种方法将世界和具身知识分解为不同的过程,同时通过训练和利用共享参数确保无缝集成。其方法概述如图所示:


第一步

为了使模型具备世界动态的知识,将这个知识获取阶段制定为未来图像轨迹生成,它捕获动态先验并更准确地预测未来状态转换。具体来说,在上下文中,目标是根据历史帧和语言指令预测未来帧。为了实现这一点,利用基于视频扩散 Transformer 模型 (VDT) Open-Sora [21] 的多帧生成框架功能,该框架已显示出生成与语言指令一致的多样化且物理上真实的连续帧能力。为简单起见,使用 VDT 来表示 Open-Sora。

在这个训练阶段,只使用第三人称摄像机来预测表示。这种方法有两个主要优点:a) 大多数机器人数据集仅包含第三人称视角数据;b) 使用固定的第三人称视角进行训练可以减少视角变化的影响,并帮助模型专注于预测机械臂本身的转换。此外,只需输入多个摄像机的视角,该方法就可以轻松扩展到多个摄像机。

第二步

使用逆动力学模型,可以根据状态准确预测动作。将逆动力学模型与第一阶段学习的 VDT 相结合的一种直接方法是单独构建一个从图像观测映射到动作的逆动力学模型。在部署期间,该模型可以根据动态-觉察梦想阶段生成的观测来预测动作。然而,通过这种方式,只有在 VDT 进行耗时迭代的去噪扩散过程后,动作才可预测,这对于高频机器人控制来说并不理想。此外,动作的准确性在很大程度上取决于预测观测的准确性。由于并非所有像素都对预测动作都很重要,因此这种方法可能会带来不必要的偏差和时间成本。此外,从头开始学习单独的逆动力学模型不会利用 VDT 的预训练参数。

为了解决这些问题,直接将 VDT 调整为逆动力学模型。这样,就可以无缝地利用在 VDT 中学习的动力学知识和隐式状态来促进动作的预测。

隐逆动力学适配器 。为了将 VDT 转换为逆动力学模型,在 VDT 的每一层之后加入一个受 [22] 启发的分层适配器。每个适配器都包括一个多头自注意和一个具有门控机制的前馈网络 (FFN)。用 h 个可学习的动作tokens Q/action,将它们与 VDT 每一层输出的特征连接起来,然后输入到分层适配器中。这融合 VDT 每一层的知识以产生 h 个最终动作嵌入 V/action。由于只重用 VDT 参数而不使用其观察生成函数,因此使用固定扩散步 k ← K , 其禁用迭代去噪过程,将轨迹嵌入直接变成纯高斯噪声。这样动作嵌入和逐层适配器结合如下:


分层适配器的灵活性允许将特定领域的知识集成到动作嵌入中。例如,如果下游机器人操作任务包括本体感受信息,可以使用本体感受嵌入器将其转换为tokens,然后将其与 VDT 每一层的输出连接起来,作为分层适配器的附加K-V。

基于扩散的动作头 。融合的动作嵌入 V/action 随后被转换为低级控制信号。为了实现这一点,用基于扩散的动作头 [51]π/φ/dec,负责将动作嵌入解码为可执行的动作信号,例如确定末端执行器姿势和夹持器状态的 7 个自由度 (DoF)。动作预测的目标定义为:







请到「今天看啥」查看全文