成功率极高！北大最新DexGraspVLA：首个灵巧抓取的分层VLA

自动驾驶之心 · 公众号 · · 2025-03-06 07:30

正文

点击下方卡片，关注“ 具身智能 之心 ”公众号

作者 | Yifan Zhong等编辑 | 具身智能之心

本文只做学术分享，如有侵权，联系删文

>> 点击进入→ 具身智能之心 技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区 ： 具身智能之心知识星球 (戳我) ，这里包含所有你想要的。

灵巧抓取仍然困难

灵巧抓取在机器人领域中仍是一个基础且具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而，现有研究通常依赖特定假设，如单物体设置或有限环境，导致泛化能力受限。我们提出的解决方案是DexGraspVLA，一个分层框架，它将预训练的视觉-语言模型用作高级任务规划器，并学习基于扩散的策略作为低级动作控制器。其核心在于迭代地将多样的语言和视觉输入转换为域不变表示，由于域转移问题得到缓解，模仿学习可在此基础上有效应用。因此，它能够在广泛的现实场景中实现强大的泛化。值得注意的是，方法在 “零样本 ”环境下，面对数千种未见过的物体、光照和背景组合时，成功率超过90%。

实证分析进一步证实了模型内部行为在环境变化中的一致性，从而验证了设计并解释了其泛化性能。希望这项工作能为实现通用灵巧抓取迈出一步。演示和代码链接：https://dexgraspvla.github.io/。

如果您还不知道怎么入门VLA，也欢迎学习我们的课程：国内首个系统面向工业与科研的具身智能VLA课程！

行业介绍

灵巧的多指手作为多功能机器人末端执行器，在各种操作任务中展现出了卓越的能力。在这些能力中，抓取是最基本的前提条件，但它仍然是最具挑战性的问题之一。现有的灵巧抓取方法主要在孤立物体或简化设置下进行评估。然而，实际应用需要机器人具备更通用的抓取能力，以便在工业制造和家庭环境等各种场景中可靠地发挥作用。然而，开发通用的灵巧抓取能力面临着多方面的挑战。在物体层面，策略必须能够泛化到具有不同几何形状、质量、纹理和方向的物体上。除了物体特征外，系统还必须对各种环境因素（如光照条件、背景复杂度和潜在干扰）具有鲁棒性。更具挑战性的是，多物体场景引入了额外的复杂性，需要复杂的推理能力。例如，在杂乱或堆叠的环境中，规划抓取所有物体的最佳顺序成为一项关键的认知任务，这远远超出了简单的抓取执行范畴。

传统的灵巧抓取方法遵循两阶段流程：首先从单帧感知中预测目标抓取姿态，然后执行开环运动规划以达到该姿态。然而，这种方法受到精确相机校准和机械精度要求的严重限制。端到端方法，如模仿学习和强化学习，通过根据实时感知反馈不断调整动作，实现闭环抓取，提供了更强大和自适应的解决方案。近年来，强化学习在机器人系统中的应用取得了显著进展。借助大规模并行模拟，强化学习使机器人能够在模拟环境中进行广泛训练，然后将学习到的策略部署到现实世界中。尽管取得了这些进展，但现实世界物理参数的复杂性在模拟建模中带来了巨大挑战，导致了不可避免的模拟到现实的差距。同时，研究人员探索了模仿学习方法来学习操作技能。这些方法通过远程操作收集人类演示数据，并使用监督学习直接学习从原始感知输入到机器人控制命令的映射。然而，这种方法在演示数据之外的泛化能力往往较差。由于通用抓取需要处理各种物体和环境，收集所有情况的演示数据并不现实。因此，关键挑战在于如何有效地利用演示数据实现更广泛的泛化。

视觉和语言基础模型的迅速出现为机器人操作带来了有前景的机遇。这些模型在预训练过程中利用了大量互联网规模的数据，对视觉和语言输入表现出卓越的场景理解和泛化能力。虽然直接让这些模型生成机器人控制命令看似直观，但这种简单策略面临着根本性的限制。由于在训练过程中缺乏物理交互数据，这些模型的空间智能有限。另一种方法是将视觉-语言模型（VLMs）集成到机器人控制策略中，以端到端的方式对它们进行训练。然而，这种范式通常需要大量手动收集的演示数据，试图涵盖现实世界的所有多样性和复杂性。即便如此，这些模型在未见过的场景中性能仍会显著下降，并且仍然需要进一步收集数据和微调才能处理新的情况。此外，机器人数据集与大规模预训练语料库之间的巨大差异会导致灾难性遗忘，损害模型宝贵的长程推理能力。有效地利用基础模型的世界知识来增强机器人策略的泛化能力仍然是一个挑战。

DexGraspVLA是第一个用于通用灵巧抓取的分层视觉-语言-动作（VLA）框架，它整合了基础模型和模仿学习的互补优势。在高层，它利用预训练的VLM作为任务规划器，用于解释和推理语言指令、规划整体抓取任务并提供监督信号。在这些信号和多模态输入的引导下，基于扩散的低级模块化控制器生成闭环动作序列。DexGraspVLA的核心在于利用基础模型迭代地将多样的视觉和语言输入转换为域不变表示，然后在此基础上高效且有效地应用基于扩散的模仿学习，以捕捉灵巧抓取数据集中的动作分布。因此，训练集之外的新场景不再会导致失败，因为基础模型将它们转换为与训练期间遇到的表示相似的形式，从而使这些场景仍在学习到的策略的域内。这种方法将基础模型广泛的世界知识与模仿学习强大的动作建模能力相结合，从而在实际应用中实现强大的泛化性能。

值得注意的是，DexGraspVLA在杂乱场景中抓取的成功率达到了前所未有的90.8%，涵盖了1287种未见过的物体、光照和背景组合，所有测试均在 “零样本 ”环境下进行。在单物体抓取基准测试中的系统评估表明，DexGraspVLA的综合成功率达到98.6%，比直接从原始视觉输入中学习的现有基线控制器高出至少48%。此外，实证分析表明，DexGraspVLA内部的表示和注意力图在不同环境中保持一致，从而证实了其框架设计的合理性并解释了其性能。这些结果证实，DexGraspVLA可以从少量单领域的人类演示中有效学习，同时可靠地泛化到广泛的现实场景中，这标志着在迈向通用灵巧抓取的道路上迈出了有前景的一步。

相关工作介绍

1）灵巧抓取

灵巧抓取通常分为两类：两阶段方法和端到端方法。两阶段方法首先生成抓取姿态，然后控制灵巧手朝着该姿态运动。主要挑战在于基于视觉观察生成高质量的抓取姿态。目前的方法采用基于采样、基于优化或基于回归的方法来生成目标抓取姿态，随后进行机器人执行的运动规划。例如，SpringGrasp使用基于优化的方法对部分观察中的不确定性进行建模，以提高抓取姿态生成的质量。UGG提出了一种基于扩散的方法，用于统一抓取姿态和物体几何形状的生成。虽然这些方法受益于解耦的感知和控制以及模拟数据生成，但它们通常缺乏闭环反馈，并且对干扰和校准误差较为敏感。

端到端方法直接使用模仿学习或强化学习对抓取轨迹进行建模。最近的研究探索了在模拟环境中使用强化学习训练灵巧操作，并将其转移到现实世界中。DexVIP和GRAFF使用计算机视觉方法生成可供性提示，并基于这些特征使用强化学习训练策略。DextrAH-G和DextrAH-RGB通过在模拟中进行大规模并行训练，在现实世界中展示了一定的泛化能力。然而，这种对模拟的依赖不可避免地引入了模拟到现实的差距，而在现实世界中直接训练则样本效率较低。最近，使用人类演示的模仿学习在复杂任务中取得了显著成果。这些方法需要人类通过远程操作收集演示数据，并直接学习数据集中的分布。虽然这种方法更容易训练，但它限制了其泛化能力。SparseDFF和Neural Attention Field探索了如何通过3D蒸馏特征场来增强泛化能力。

2）机器人领域的基础模型

近年来，在大规模数据集上预训练的基础模型取得了显著进展。视觉基础模型表现出强大的分布外泛化能力，而包括GPT-4o和Qwen2.5-VL在内的视觉-语言模型则展示了复杂的多模态推理能力。有效利用这些基础模型已成为机器人研究中有前景的方向。一种突出的方法，以RT-X、OpenVLA、Pi0等为代表，涉及在机器人数据上直接微调视觉-语言模型。然而，这种策略需要大量涵盖各种现实条件的演示数据才能实现泛化。即使是目前可用的最大机器人数据集也无法覆盖所有场景；在这些数据集上训练的模型在未见过的领域中仍难以达到在已见过领域中的性能，并且通常需要为新环境收集额外数据并进行微调。此外，由于机器人操作任务的复杂性和专业数据的稀缺性，这些模型往往会牺牲一些先进的推理能力。另一项研究，以VoxPoser和Rekep为代表，利用视觉-语言模型生成特定任务的输出，如可供性图或约束点，然后将其与传统运动规划相结合。虽然这种分层策略通常保留了视觉-语言模型固有的推理能力，但它依赖于足够强大的低级控制器来执行高级命令，这使得有效接口的设计至关重要。我们的工作利用预训练的基础模型生成域不变表示，这有助于学习灵巧抓取策略。通过将现实世界的大部分复杂性转移到基础模型上，我们可以显著减少所需的演示数据量，同时实现强大的零样本泛化能力。

问题公式化

我们的目标是开发一种基于视觉的控制策略，用于语言引导的灵巧抓取，并将其公式化为一个顺序决策问题。最初，会给出一个语言指令l，例如 “抓住玩具”，以直接指定目标物体。在每个时间步t，策略会从手腕摄像头接收第一视角图像（H和W分别表示图像的高度和宽度）、从头部相机接收第三视角图像，以及机器人的本体感受信息，其中包括七个手臂关节角度和六个手部关节角度。基于这些观察，机器人通过从动作分布中采样，产生一个动作，其中和分别表示手臂和手部的目标关节角度。这个过程一直持续到达到终止条件。机器人会收到一个二进制奖励，用于指示它是否成功完成了指令l。策略π的目标是最大化预期奖励。

更一般地，我们考虑用户提示P可能是一个涉及多个抓取过程的长期任务的情况，例如 “清理桌子”。这就要求策略π对提示进行推理，将其分解为单个的抓取指令，并按顺序完成这些指令。

DexGraspVLA方法

1）DexGraspVLA框架

如图2所示，DexGraspVLA采用分层模块化架构，由一个规划器和一个控制器组成。下面我们将解释各部分的设计。

规划器 ：为实现通用灵巧抓取，模型需要能够处理多模态输入、进行视觉定位，并对用户提示进行推理。基于视觉语言模型（VLMs）的最新进展，采用现成的预训练Qwen-VL-Chat作为高级规划器，来规划和监控灵巧抓取工作流程。给定用户提示P，规划器根据头部摄像头的观测结果对执行计划进行推理。具体而言，如果P是一个涉及多个抓取步骤的长周期任务描述，比如 “清理桌子”，规划器会考虑桌子上物体的位置和方向，并提出一个合适的抓取指令作为第一步，例如 “抓取饼干”。否则，如果P直接针对一个物体进行抓取，规划器就将其视为指令l。

对于每个指令l，规划器在初始时刻，通过在头部摄像头图像中标记目标物体的边界框来引导低级控制器。虽然语言指令的表述和内容因用户和情况而异，即表现出领域差异性，但边界框是一种一致的物体定位格式，无论语言和视觉输入如何变化，都能实现领域不变性。因此，这种转换减轻了控制器的学习难度。

在接收到边界框后，控制器开始执行任务。在此过程中，规划器以1Hz的频率查询当前头部图像，以监控进展情况。如果发现机器人成功抓取物体，规划器会执行预设的放置动作，将物体放入袋子中，然后将机械臂和手重置为初始状态。之后，规划器根据提示和视野中剩余的物体推理，提出新的抓取指令，直到提示P完全完成。另一方面，如果控制器未能抓取目标物体，规划器会重置机器人，并根据当前物体状态用新指令重新初始化抓取循环。

控制器 ：基于目标边界框，控制器旨在在杂乱环境中抓取目标物体。我们将这个边界框作为输入，输入到SAM中，以获得目标物体的初始二进制掩码，然后使用Cutie随时间连续跟踪该掩码，在每个时刻t生成。这确保了在整个过程中，在杂乱场景中都能准确识别物体。问题在于学习能有效对动作分布进行建模的策略。

为实现通用灵巧抓取能力，系统必须在各种真实场景中有效泛化。然而，原始视觉输入、的高度可变性给学习关键任务表示带来了根本性挑战。传统的模仿学习方法，即使在物体或环境条件稍有变化的情况下，也往往会惨败。为解决这个问题，我们的解决方案是将可能随领域变化的输入转换为适合模仿学习的领域不变表示。我们认识到，虽然像素级感知可能差异很大，但大型基础模型提取的细粒度语义特征往往更稳健、更一致。因此，我们利用在互联网规模数据上预训练的特征提取器（如DINOv2）从原始图像中获取特征。在每个时刻t，我们获得头部摄像头图像特征：

和腕部摄像头图像特征：