点击下方
卡片
,关注“
具身智能
之心
”公众号
作者 |
Hongyin Zhang等
编辑 |
具身智能之
心
本文只做学术分享,如有侵权,联系删文
>>
点击进入→
具身智能之心
技术交流群
更多干货,欢迎加入国内首个具身智能全栈学习社区
:
具身智能之心知识星球
(戳我)
,
这里包含所有你想要的。
写在前面&出发点
随着具身智能的快速发展,用于通用机器人决策的视觉-语言-动作(VLA)模型取得了显著进展。然而,现有的大多数VLA模型未能考虑到在部署过程中不可避免的外部扰动。这些扰动给VLA模型带来了不可预见的状态信息,导致动作不准确,进而使泛化性能大幅下降。经典的内模控制(IMC)原理表明,具有包含外部输入信号的内模的闭环系统可以准确跟踪参考输入并有效抵消干扰。这里提出了一种新颖的闭环VLA方法GEVRM,该方法集成了IMC原理,以增强机器人视觉操作的稳健性。GEVRM中的文本引导视频生成模型可以生成高度表达性的未来视觉规划目标。同时,我们通过模拟响应来评估扰动,这些响应称为内部嵌入,并通过原型对比学习进行优化。这使得模型能够隐含地推断和区分来自外部环境的扰动。所提出的GEVRM在标准和受扰动的CALVIN基准测试中均实现了最先进的性能,并且在实际机器人任务中显示出显著的改进。
首发于国内首个具身智能全栈学习社区:
具身智能之心知识星球!
领域介绍
追求稳健且适应性强的机器人系统是具身通用智能的基石。最近,随着大规模机器人数据收集、通用状态表示学习以及表达性策略学习的成功推进,机器人视觉-语言-动作(VLA)模型的研究取得了重大进展。上述策略已被证明在从物理模拟器到精心设计的现实世界环境等各种环境中,对估计机器人状态和生成稳健动作是有效的。然而,这些精心设计的环境并未考虑到部署过程中不可避免的外部扰动,例如光照条件的波动或由于信号传输问题导致的视频流噪声。当VLA模型部署在这些非理想环境中时,外部扰动会给机器人带来不可预测的状态信息。这使得VLA在不准确的环境状态下产生脆弱且不稳定的动作,导致其泛化性能显著下降。因此,增强VLA模型的稳健性以应对部署时不可避免的外部扰动是一个持续的挑战。
在计算机视觉和强化学习领域,图像增强是一种常见的技术,用于缓解模型过拟合问题、抵抗输入图像的扰动并增强模型的稳健性。其思想是对模型的输入图像应用任务标签不变的变换。例如,对于物体识别任务,图像翻转和旋转不会改变语义标签。因此,这项技术也已应用于机器人视觉语言操作任务。一些先前的工作利用视觉作为通用媒介,开发了能够通过想象和执行来规划各种任务的特定智能体。这些方法涉及使用生成模型来预测未来视频或目标图像,然后是将视觉计划转化为实际动作的目标条件策略。在训练目标条件策略时利用了图像增强技术,这在一定程度上缓解了策略对特定任务的过拟合。然而,这些模型受到其生成能力的限制,它们生成的未来目标图像(或视频)状态表达不够充分,并且图像增强仅允许模型在狭窄的任务分布内进行泛化。它对环境扰动缺乏强大的弹性,难以在不同的任务场景中产生始终有效的动作。
受到图1(a)所示的经典内模控制(IMC)原理的启发。该原理的核心思想是,在闭环控制系统中,通过在控制器内部构建一个能够模拟外部扰动和参考输入的模型,可以准确跟踪期望输出并有效抵消扰动。也就是说,它利用内模来复制系统的行为,随后评估系统的扰动,从而增强闭环稳定性。人们普遍认为,智能哺乳动物也依赖内模来产生它们的动作,并且这种机制也得到了行为学、神经生理学和成像数据的揭示和支持。更重要的是,将内模集成到机器人控制系统中已被证实可以增强机器人运动控制的稳健性。然而,结果仅限于特定场景,难以扩展到更复杂和通用的任务,如视觉语言操作。如何在VLA框架中实例化内模以提高决策动作的稳健性尚未得到探索。
为此,我们提出了GEVRM,一种用于稳健视觉操作的目标表达视频生成模型。如图1(b)所示,为了在VLA模型中有效地实现经典的IMC原理,我们对方法的一些组件进行了相应调整。
-
目标生成
:将视频帧作为描述机器人状态的通用接口,我们引入一种先进的文本引导视频扩散生成模型作为机器人行为规划器,以生成未来目标帧作为参考输入。为了提高未来目标状态的表达性,我们通过高效的视频时空压缩和随机掩码策略来训练视觉规划器,以优先理解物理世界规律和物体的3D一致性。
-
状态对齐
:我们利用机器人的模拟响应来估计系统扰动。这些响应称为内部嵌入,是从机器人状态中提取的。由于响应固有地嵌入在机器人的历史观测中,因此可以通过原型对比学习来优化内部嵌入,以使机器人未来的表达性目标状态与当前状态对齐。这使模型能够隐含地推断和区分来自外部环境的扰动。
-
目标引导策略
:我们提出一种以生成的高度表达性目标为条件的扩散策略,以更好地对机器人操作的多模态任务分布进行建模。该策略和上述内部嵌入通过逆动力学和对比学习目标进行联合优化,以便即使在存在扰动的情况下也能很好地跟踪高度表达性目标。
贡献有三个方面:
-
引入了GEVRM,这是一种新颖的稳健VLA模型,它结合了IMC原理来增强机器人视觉操作。
-
研究了如何使用文本引导视频生成模型获得高度表达性的目标,并通过原型对比学习对齐状态表示,以抵抗部署时的外部扰动。
-
大量实验验证了所提出的GEVRM的有效性和先进性。它在标准和外部扰动的CALVIN基准测试中显著优于先前的最先进方法。与以前的基线方法相比,在实际视觉操作中生成的目标状态的表达性显著提高。
相关工作
视觉-语言-动作模型
随着广泛的多任务机器人数据集的兴起,机器人学界越来越关注多任务执行能力。视觉-语言-动作模型因其能够使用语言作为目标命令,使机器人能够基于视觉感知做出明智决策而受到关注。早期研究利用语言和视觉之间的跨模态注意力,但有限的模型性能阻碍了其有效性。最近,注意力转向了大型基础模型,以提高通用性。然而,文本描述往往缺乏关于环境状态的细节,这使得跨形态任务变得复杂。因此,一些研究现在利用视觉作为通用媒介,采用生成模型来预测未来动作,然后通过目标条件策略来执行。UniPi是最早利用互联网规模数据训练文本条件视频生成器的模型之一,它使用逆动力学模型来估计动作。同样,SuSIE使用图像编辑模型为低级控制器规划高级子目标,而ADVC从具有密集对应关系的预测视频内容中推断动作。这些努力旨在实现通用状态表示,但由于两个原因而未能成功。首先,由于动力学建模不佳,现有的视觉计划存在时间和空间不一致性。我们提出了一种稳健的视频生成模型来解决这个问题并增强动作执行。其次,先前的工作侧重于受控环境,忽略了机器人对外部干扰的响应。我们的GEVRM方法采用对比学习进行状态对齐,有效地模拟响应并抵抗干扰。这些元素共同定义了我们富有表达力的目标表示。
内模控制框架
IMC框架是一种广泛认可的控制策略,它利用系统的内模来预测未来行为并相应地调整控制动作,使其对干扰和模型不准确性具有高度的鲁棒性。IMC由Garcia和Morari首次提出,已广泛应用于线性和非线性过程控制中,在稳定性和适应性方面具有显著优势。其反馈机制允许进行实时调整,这在诸如机器人技术等对精度要求极高的动态环境中尤为重要。IMC的设计已针对多变量和复杂系统进行了进一步探索和改进,证明了其在各种控制应用中的通用性和鲁棒性。然而,以前的大多数研究工作都局限于特定的控制场景,难以扩展到一般的视觉语言操作任务。最近,受经典闭环控制系统的启发,有人提出了一种闭环视觉运动控制框架,该框架结合了反馈机制来改进自适应机器人控制。与这些工作不同,我们研究如何在VLA框架中有效地实例化内模,以提高决策动作的稳健性。
问题公式化
这项工作研究如何生成高度表达性的目标状态并诱导稳健的动作,以抵御外部干扰。正式地,在非马尔可夫决策过程框架中研究机器人轨迹和动作生成,该框架由以下元组指定:
,其中
和
分别表示图像状态和动作空间,
表示语言文本目标空间,
是转移动力学,
是初始图像状态分布。我们旨在生成富有表达力的未来图像目标状态以及在视觉操作任务中,根据抽象语言指令
和历史图像序列状态(即视频)
要执行的当前动作:
。该问题被分解为两个层次:
-
机器人行为规划
:给定语言指令
和历史视频状态
,推断图像目标状态
。
-
机器人动作预测
:给定历史和推断出的富有表达力的未来图像目标状态
,预测要执行的当前动作
。
这种解耦过程可以表示为:
这种解耦过程极大地降低了模型训练对语言、图像序列和机器人动作对的依赖。行为轨迹规划模型
的训练只需要文本-视频对
,而无需机器人动作标签,这些数据可以从互联网上带有语言标签的大规模视频片段和带有文本注释的机器人序列决策数据中获得。
的训练只需要少量针对特定下游任务的无语言标签的演示数据
。在测试阶段,给定新任务的自然语言描述
和初始图像状态
,我们不仅需要评估模型推断的未来目标状态的表达力,还需要评估在外部扰动下完成任务的成功率。
方法介绍
我们的目标是构建一个稳健的VLA模型,将IMC概念融入机器人视觉运动控制中,如图2所示。为了在执行前设定高度表达性的目标,引入一个强大的视频生成模型作为视觉规划器。下面也会详细介绍如何对齐目标状态以评估扰动,并展示如何诱导生成稳健的决策动作。最后,实现GEVRM的整体测试时执行流程。
机器人行为规划器
受近期视频生成模型成功的启发,我们寻求构建一个文本引导的视频扩散变压器模型,作为用于生成机器人目标状态的行为规划器
。该规划器可以根据历史视频观察和抽象的文本任务描述忠实地合成未来目标图像帧。通过视频生成进行规划需要一个既能从给定视频生成受限视频,又能完成下游任务的模型。具体来说,为了获得高度表达性的未来目标状态,在设计机器人行为规划器时需要考虑三个核心方面:
-
视频时空压缩
:扩散变压器(DiT)需要大量计算资源才能在原生像素空间中对机器人图像状态序列数据执行复杂操作。为了缓解这个问题,首先使用2D变分自动编码器(VAE)压缩原始像素空间,然后使用3D VAE进一步压缩,以获得信息丰富的低维密集空间。这样做的好处是避免了3D VAE在原始像素空间中的高计算成本。实际上,在2D VAE进行空间压缩后,相邻特征之间仍然存在相当大的时间相关性。在图像状态序列编码阶段,最初通过应用2D VAE将空间维度减少8×8倍,随后通过3D VAE将时间维度压缩4倍。在图像状态序列解码阶段,先恢复时间维度,再恢复空间维度。3D VAE采用因果3D卷积层代替3D卷积神经网络(CNNs),确保每一帧的输出仅取决于其前序帧。
-
随机掩码机制
:为了实现高效的目标图像合成,实施了一种随机掩码机制。训练过程涉及对帧进行随机掩码,包括揭示初始帧、前
帧、最后一帧、后
帧、初始帧和最后
帧的组合以及任意帧等场景。在测试阶段,我们可以访问历史图像状态,但无法获取未来图像状态。因此,在模型的训练方案中,对前
帧的掩码操作被赋予最大权重,具体为75%。其余的掩码策略被归类为补充目标,共同构成剩余的25%。虽然掩码机制在概念上很简单,但它使机器人行为规划器能够根据各种时间快照预测后续帧,显著增强了模型对物体动力学和时间顺序相关性的理解和感知。
-
模型骨干和训练
:DiT模块源自一个预训练的文本引导视频生成模型,并集成了一个固定的T5编码器来处理语言指令。受Stable Diffusion 3最新进展的启发,我们使用整流流对机器人行为规划器进行微调,超越了传统的去噪扩散概率模型(DDPM)。整流流通过沿着样本之间的直线路径求解常微分方程,促进了从噪声到真实图像分布的映射学习。这种方法已被证明是一种更高效的训练范式,显著减少了视频采样步骤,进而显著提高了模型训练速度并减少了推理时间。
机器人动作预测
机器人行为规划器生成的高表达性目标状态用于指导决策动作的预测。从视觉目标状态
和当前视觉状态
到最终动作
的输出,我们的目标导向策略
可分为以下两个部分:1)状态对齐以模拟响应。从视觉目标状态和当前视觉状态中提取有价值的特征,并利用原型对比学习来对齐状态表示、模拟机器人响应以及评估干扰。2)目标导向动作预测。将目标和当前内部紧凑编码信号解码为机器人能够稳健执行的动作。
-
状态对齐以模拟响应
:在经典控制系统领域,IMC框架要求在控制器中集成系统的内部模型。这个内部模型能够抵消外部干扰和参考输入,从而确保系统行为的精确性和可靠性。为了在基于学习的框架中实现IMC原理,我们首先部署残差网络ResNet 34作为目标状态和当前状态的视觉编码器。这种转换将原始像素数据转换为丰富的视觉表示
和
。对于当前视觉状态表示
,关键在于如何对其进行优化,以模拟机器人响应来评估外部扰动,而这种响应本身就编码在视觉目标状态中。遵循IMC原理,我们主张在潜在空间
中对这一过程进行建模,并通过对比学习进行优化,以实现与视觉目标状态的对齐。
在演示数据
中,如果一对
和
来自同一轨迹,它们就是正样本对,否则为负样本对。这些样本对通过交换分配的任务进行优化。具体来说,给定从演示数据
中采样的图像观察序列,可以从转换过程中推导出未来目标图像
作为目标向量,将当前图像观察
作为源向量。源向量和目标向量分别输入到源编码器和目标编码器中,以获得潜在特征,这些潜在特征被映射到高维空间的单位球面上并进行
归一化:
为了从潜在特征预测聚类分配概率
和
,我们首先对原型进行
归一化,以获得可训练的归一化矩阵
,然后对所有原型的源向量或目标向量的点积取soft maximum:
这里
是温度参数。
和
是当前和目标图像观察
和
映射到索引为
的单个聚类的预测概率。为了在避免平凡解的同时获得预测概率
和