ManipLLM：以目标为中心机器人操作的具身多模态大语言模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-02 00:05

正文

23年12月来自北大的论文“ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation”。

机器人操作依赖于准确预测接触点和末端执行器方向以确保操作成功。然而，基于学习的机器人操作，是在模拟器中对有限的类别进行训练的，通常难以实现泛化性，尤其是在面对广泛的类别时。因此，引入一种机器人操作方法，利用多模态大语言模型 (MLLM) 的强大推理能力来增强操作的稳定性和泛化能力。通过微调注入的适配器，保留 MLLM 固有的常识和推理能力，同时为它们配备操作能力。根本的洞察，在于引入的微调范式，包括目标类别理解、affordance先验推理和以目标为中心的姿态预测，以刺激 MLLM 在操作中的推理能力。在推理过程中，利用 RGB 图像和文本提示来预测思维链中末端执行器的姿态。在建立初始接触后，引入主动阻抗自适应策略，以闭环方式规划即将到来的航点。此外，在现实世界中，设计一种测试-时间自适应 (TTA) 策略来进行操控，以使模型更好地适应当前现实世界的场景配置。

ManipLLM 如图所示：给定一个包含目标和文本提示的 RGB 图像，在 2D 图像上生成接触像素坐标和末端执行器方向。此外，深度信息会将像素坐标投影到 3D 空间中。建立初始接触后，设计一种主动阻抗自适应策略，通过闭环方式预测即将到来的航点来确定运动。具体来说，该模块根据当前姿势在周围方向施加较小的力。它旨在确定产生最大运动的方向，然后选择该方向作为下一个姿势。该方法依靠沿轴和目标产生的力反馈来自适应地调整方向并预测轨迹。

机器人操作因其广泛的适用性而成为关键的研究领域。一种广泛使用的方法是基于状态的强化学习 (RL) [3, 12, 17, 36]。一些研究已经确定了使用纯状态作为策略输入的可能性 [3]。然而，当涉及到更复杂的设置时，基于视觉的观察 [6, 10, 14, 16, 23, 27, 28, 30, 32–34, 40] 变得必不可少 [5, 18]。 Where2Act [23] 提出网络来预测目标中可操作的像素和可移动区域，从而实现在各种环境中的有意义的交互。 Flowbot3d [6] 也探索了一种基于视觉的方法，通过预测逐点运动流来感知和操纵 3D 铰接式目标。此外， VoxPoser [16] 基于自然语言指令，通过从大语言模型中得出的 3D 价值图合成自适应机器人轨迹。RT-2 [40] 将信息转化为动作，有望更快地适应新情况。

然而，尽管这些方法取得了令人瞩目的成就，但它们将任务制定为黑箱预测，降低了其可解释性。当面对大量目标时，这种情况变得极其严重。为了弥补这一差距，本文将操纵能力注入现有的MLLM，同时保留其原有的推理能力。通过这样做，微调后的模型不仅具有精确的操纵能力，而且还能够在可解释的思维下处理不同的类别目标。

如图所示，ManipLLM 在类别级、区域级和姿态级设计微调任务，使模型能够逐步合理地预测以目标为中心机器人操作的姿态。

用 MLLM、LLaMa-Adapter [38] 作为主干，并遵循其训练策略。给定一个 RGB 图像 I，用 CLIP [25] 的视觉编码器来提取其视觉特征。而使用预训练的 LLaMa [26] 的token化器将文本提示 T 编码为文本特征。在将视觉和文本特征表示与多模态投影模块对齐后，LLaMa 需要进行多模态理解并给出正确答案。在训练期间，仅对视觉 CLIP 和 LLaMa [26] 中注入的适配器 [15] 以及多模态投影模块进行微调，同时冻结主要参数。这旨在保留现有 MLLM 的强大能力，并进一步增强模型的机器操作能力。

设计一个训练范例来微调 MLLM，并刺激模型生成可解释的姿态预测，进行以目标为中心的操作。

目标类识别 (OCI) ：为了成功操纵目标，模型需要了解它所面对的目标类，因为同一类别的目标具有共同的几何属性。如上图中的第一个提示所示，将提示表述为“图像中目标的类别是什么？”。值得一提的是，MLLM 已经在现实世界中的多种目标上进行了训练，使其具有很强的类别识别和泛化能力。相比之下，模拟器中的目标类别非常有限，最多只有 30 到 50 个 [24]。更新模拟器中的学习过程，可能会导致 MLLM 失去强大的目标类别识别能力和稳健的泛化能力。因此，在此阶段不更新模型，而是为后续任务提供类别认知的先验，帮助它们提取类别特定的操作特征。

Affordance先验推理（APR）：此阶段旨在使模型知道可以操作目标区域的哪个位置。affordance图考虑了目标的几何形状，并指示在某些像素上操作时获得移动距离的概率，反映了可以操作目标的位置。它可以作为区域级affordance，优先于使模型具有操作-觉察定位能力。受 Flowbot3D [6] 的启发，将目标部分的动作类型分为“轮”和“棱镜”，并相应地在模拟器中收集affordance图。对于“轮”部分，首先找到可移动目标部分的轴，然后使该部分沿轴移动。对距离图中最大值和最小值进行归一化操作，得到 affordance 图，表示像素级可操作性的概率。对于“棱镜”部分，也就是抽屉，操作可移动部分表面的所有点都可以促成移动。因此，棱镜可移动部分的affordance图概率都等于1。对于“轮”部分，可供性图反映了可以进行操作的区域，即远离轴的区域。

获得affordance图后，目标是使模型能够从这种操作先验中学习。由于只有语言解码器（LLaMa）而不是视觉解码器，因此模型无法直接生成affordance图。因此，旨在将视觉表示的affordance图转换为语言affordance先验。具体而言，随机选择affordance得分高于 0.8 的 n 个正像素并选择affordance得分低于 0.2 的 n 个负像素作为训练样本。负样本既涵盖无法移动部件上的像素，也涵盖可以移动但affordance得分较低部件上的像素，即靠近轮轴的像素。

微调 (FT) 和掩码语言建模 (MLM) ：这些任务旨在使模型能够生成精确的末端执行器姿势。在模拟器中，当预先收集训练数据时，如果操作成功，会记录 RGB 图像和相应的末端执行器姿势，用作模型输入和答案基本事实。对于任务微调 (FT)，如上图中的最后一个提示所示，将姿势预测的输入文本提示设计为“指定操作目标接触点和夹持器方向”。答案表述为“接触点为 (x, y)，夹持器向上方向为 (x/u, y/u, z/u)，夹持器向前方向为 (x/f , y/f , z/f )”。为了降低方向回归预测的难度，将其转化为分类预测，将归一化方向向量中的连续数离散化为 100 个离散bins [-50,50]，每个bin跨度为 0.02。输出在交叉熵损失 LF 下进行监督。

然而，直接对姿势预测模型进行微调会导致不准确。因此，为了促进姿势预测，在掩码语言建模 (MLM) 任务中，屏蔽输入文本提示中的坐标或方向向量的值，并促使模型填充缺失的字符，如上图中的第三个提示所示。这由交叉熵损失 LM 下未屏蔽的答案进行监督，以刺激模型的姿势预测能力。该模型学会了从affordance先验学习中受益，预测合理的接触位置。至于预测适当的方向，MLLM 天生具有方向意识，例如能够推理出“将门拉向你”。训练将这种方向认知描述和方向向量映射到一致的表示，从而能够预测末端执行器的方向。

训练与推理：训练时，在总目标函数L=L/A+L/M+L/F下同时训练上述任务。推理时，采用思维链推理模拟模型，解释性地生成精确的初始接触末端执行器位姿。如图所示，推理过程遵循与训练任务一致的三个步骤。模型最终输出像素坐标（x，y）、夹持器向上方向（x/u，y/u，z/u）和夹持器向前方向（x/f，y/f，z/f）。利用深度图将接触点投影到3D操作空间（x，y，z）中。夹持器向上方向和夹持器向前方向共同构成末端执行器的旋转。它们与预测方向一起共同确定末端执行器的姿态，以建立与目标的初始交互。

ManipLLM：以目标为中心机器人操作的具身多模态大语言模型

正文

请到「今天看啥」查看全文