增强具身基础模型的通用动作

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-02-11 03:16

正文

25年1月来自清华大学、商汤科技、北京大学、北邮和上海AI实验室的论文“Universal Actions for Enhanced Embodied Foundation Models”。

在多样化的互联网规模数据上进行训练是近期大型基础模型成功的关键因素。然而，使用相同的方法构建具身智体面临着明显的困难。尽管有许多众包具身数据集可用，但由于不同机器人的物理具身和控制界面不同，它们的动作空间往往表现出显著的异质性，这给使用跨域数据开发具身基础模型带来巨大挑战。本文介绍 UniAct，这是一个在token化的通用动作空间中运行具身基础建模框架。学习的通用动作，通过利用不同机器人共享的结构特征来捕捉它们之间的通用原子行为，并通过消除异质性来实现增强的跨域数据使用和跨具身泛化。只需添加特定于具身的细节，就可以将通用动作有效地转换回异构可操作命令，从而快速适应新机器人变得简单而直接。本文 UniAct 的0.5B 实例在对各种现实世界和模拟机器人的广泛评估中优于 14 倍更大的 SOTA 具身基础模型，展示卓越的跨具身控制和适应能力，凸显采用通用动作的关键优势。

在自然语言处理和计算机视觉等领域，在大量不同的数据源上训练的基础模型已经表现出显著的成功和强大的泛化能力，凸显学习通用模型相对于特定任务模型的优势 [1, 5, 40, 62]。受这些成功的启发，开发能够处理跨任务、跨环境和跨具身泛化的多功能具身基础模型，为构建通用具身智体提供一条有希望的途径 [8, 17, 18, 28, 31, 61, 68]。

然而，具身数据的巨大异质性带来重大挑战 [20, 49, 64]。这种异质性不仅表现为由于摄像机位置（如手腕或第三人称视角）和环境条件（如光照或背景变化）变化而造成的视觉差异，更重要的是动作异质性[17, 48, 65]。1）不同具身形式的机器人（例如，不同自由度或机械臂、四足机器人和汽车之间的区别）拥有完全不同的动作空间[68]。2）此外，控制接口的多样性（例如，机械臂的末端执行器（EEF）位置或速度控制器）导致动作命令的物理意义根本不同[49]。3）即使动作是由同一机器人平台的不同操纵者收集的，人类行为的多模态性也会加剧这种异质性[14, 34, 41, 55]。因此，在不同机器人和机构中收集的具身动作数据，往往位于原始物理空间中很大程度上不相交流形上（例如，末端执行器的位置和旋转）[17, 65]，这大大增加不同数据源之间数据共享的复杂性。

目前，还没有现有的解决方案能够充分解决动作异质性问题。大多数先前的研究强制将不同的动作空间视为等效的，并应用相同的离散化或规范化技术，从而导致潜在的冲突动作空间，其中相似的动作编码可能代表完全不同的物理含义[31, 49, 61]。虽然一些努力试图通过简单地聚合所有单个动作空间来设计一个适用于各种机器人系统的物理上可解释的动作空间[17, 41]。这需要大量的人体工程学努力，并且无法发现和利用不同具身动作空间之间的内在联系，阻碍通用具身基础模型的有效开发。

多模态基础模型。大语言模型 (LLM) [1、5、40、62] 在各种任务中表现出色，展示了零样本和上下文学习能力 [16]。在此基础上，大型视觉语言模型 (VLM) 通过将视觉和语言集成到统一的token空间中而得到开发，展示了出色的多模态指令跟随能力 [6、21、32、35、58、59、72]。他们的成功主要归功于广泛的互联网规模预训练，利用来自互联网的大量多样化高质量数据语料库。

具身基础模型。在开发具身基础模型时，在训练过程中加入另一个关键模态——动作（机器人可以解释和执行的可部署控制信号，例如 EEF 位置/速度）。最先进的模型通常构建为视觉-语言-动作模型 (VLA) [9, 10, 18, 31, 49]，将视觉和语言输入与动作的输出相结合。然而，从不同的机器人平台和实验室收集的动作标签表现出明显的异质性 [30, 49, 64]，阻碍了不同来源之间的有效数据共享。为了规避这一挑战，许多研究采用大规模无动作视觉-语言数据，例如域外的人类活动 [15, 24, 25]，首先获得良好的具身化 VLM，然后根据特定机器人平台的一小组动作标签将其微调为专门的 VLA [3, 4, 7, 10, 12, 19, 22, 29, 36, 37, 42, 47, 66, 67, 69, 72]。虽然这些方法可以提高特定机器人在一组狭窄任务上的采样效率，但它们在构建通用具身智体方面面临严重的性能瓶颈 [7, 19, 56]，因为从任何单个机器人平台收集的动作数据远不如全球收集的众包数据更全面 [20, 30, 49]。

最近的一些研究利用丰富的异构动作标签来开发通用机器人策略，以实现跨具身控制。RT-X 系列 [49]、Octo [61] 和 Open-VLA [31] 利用来自不同 7 自由度机器人的数据来增强对单个机器人源进行训练的泛化能力。更进一步，CrossFormer [17]、RDT [41]、π0 [8] 和 Yang [68] 探索使用来自具有完全不同机械结构的机器人（例如操纵和导航中的机器人）以及单臂与双手系统数据的潜力。然而，现有的研究要么忽略不同来源的动作空间异构属性，粗略地将它们视为相等而不考虑其固有冲突 [31, 49, 61]，要么天真地将所有动作空间聚合在一起，未能利用不同机器人之间潜在的共同点 [8, 17, 41, 68]。

具有潜动作空间的具身模型。这里工作旨在提取一个多功能的通用动作空间，类似于潜空间，但编码各种机器人平台上常见的原子控制行为和模式。一些工作在潜空间中开发具身模型 [4、13、34、45、54、55、69、70]。其中，LAPA [69]、IGOR[4] 和 LAPO [54] 通过在无动作视频上联合自监督训练逆向和正向动力学模型来开发潜动作空间 [11]。然而，以这种方式提取的潜动作，主要侧重于解释视频帧之间的变化，缺乏具身考虑或与实际控制信号的直接因果关系。为了了解为什么这是有问题的，假设在机器人前面添加一个新目标，视觉输入会发生变化，但这与控制行为无关，理想的编码动作不应捕获这种分散的信息。 BeT [55]、VQ-BeT [34] 和 QueST [45] 也通过 K-均值聚类 [43] 或矢量量化 [33、44、63] 构建离散动作码本，其中码本中的每个码都为动作标签编码不同的聚类中心。这些研究主要关注具有单一具身类型的简单领域，这增强了对具有多种模式的复杂人类演示进行建模的能力，但难以解决不同具身之间的动作异质性。

本文提出一个通用动作的具身基础模型，UniAct。它旨在在通用动作空间中运行，擅长弥合域差距并促进大规模异构数据的训练。

通用动作空间

理想的通用动作空间是，所有由来自不同具身、异构控制信号驱动的运动都可以蒸馏为共享的潜原子行为，尽管它们具有不同的物理含义。将这些抽象的行为表示称为通用动作，它们在所有物理具身之间共享。

离散的通用动作空间，是由离散表示在复杂推理、规划和预测学习中的强大功能所激发的，正如 LLM 和 VLM [1, 5, 6, 60] 和矢量量化变分自动编码器 [52, 63] 的成功所证明的那样。本文将通用动作空间建模为 U，并使用矢量量化码本 [63] 来实现它，表示为 U = (u_1, u_2, u_3...u_N)，其中 N 是空间大小，每个 u_i 是一个 D 维矢量嵌入，表示通用原子行为。先前的几项研究 [4, 11, 69] 追求类似的概念，即推断两个视觉状态之间观察的动态变化来构建通用的潜动作。然而，这种方案有两个关键限制，导致通用动作空间不理想且嘈杂：

• 观察变化不仅包括机器人的控制结果，还包括与实际控制没有因果关系的外部因素（例如环境变化、新目标的出现、人为干预等）。
• 两次观察之间的间隔，对提取的原子行为语义解释有重大影响，使得在不同数据源之间标准化行为解释变得复杂。

通用动作空间如图所示：

通用动作提取

为了得到理想的通用动作空间，提出一种提取通用动作的方法，不再仅仅关注解释观察变化，而是更多地关注理解任务进展。具体来说，对大型视觉-语言模型进行微调，作为通用动作提取器，它输出在给定观察 o 和任务目标 g（例如语言指令）的情况下选择通用动作 u 的似然 p(u|o, g)。希望采用与具身数据中编码原子行为相匹配的相应通用动作 u∗，满足：

类似于潜空间中的规划 [13, 50, 51]，提取器旨在推断在观察 o 下解决给定任务 g 最相关通用动作，从而设计与任务进展直接相关的通用动作，而不仅仅是识别含噪的观察变化。用 VLM 来实现此目的，因为它具有强大的视觉-语言推理能力。此外，在学习通用动作时，对预训练的 VLM 进行微调还可以大大提高样本效率。该提取器为跨域泛化创建一个关键的信息瓶颈，因为不同的机器人被迫使用相同的离散码本 U 来捕获所有域中通用和共享原子行为。

然而，为了实现这一点，不可微 argmax 阻碍梯度传播。因此，在训练过程中使用分类重参数化，利用 Gumbel-Softmax 技术来促进梯度估计 [27]。前向程序计算按照如下公式进行：

其中

为了促进训练初期的参数空间探索和模型收敛的稳定性，在训练过程中逐渐衰减温度 τ。通用动作提取器如图所示：

异构解码

为了有效地将通用动作空间中高度抽象的行为转化为精确的、特定具身的控制信号，整合更多具身细节（如控制类型、本体感受和不同观察）至关重要。为了解决这个问题，引入一系列轻量级解码器头以适应每种类型的具身，表示为 H = (h_1 ...h_k ...h_K)，K 是训练域的数量。每个头 h_k 都专门设计用于学习从通用动作 u∗ 和视觉观察 o 到域 k 具身异构控制信号的映射。每个解码器头 h_k 的操作可以表述为：

增强具身基础模型的通用动作

正文

请到「今天看啥」查看全文