专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
证券时报  ·  “减负”超2.6万亿元!国家税务总局最新公布 ·  13 小时前  
中国证券报  ·  A股主线,重要变化! ·  23 小时前  
中信建投证券研究  ·  中信建投:TMT科技本周核心推荐 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

通过 Affordance 链改进视觉-语言-动作模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-02-08 00:21

正文

24年12月来自上海大学、美的空调和华东师大的论文“Improving Vision-Language-Action Models via Chain-of-Affordance”。

机器人基础模型,特别是视觉-语言-动作 (VLA) 模型,因其能够增强机器人策略学习、大大提高机器人的泛化和鲁棒性,而备受关注。OpenAI 的最新模型 O1 ,通过利用广泛的推理链展示解决复杂问题的出色能力。这引出了一个重要的问题:机器人模型能否通过回顾先前的观察结果,然后提供特定于任务的推理来指导动作预测,从而在多任务、复杂环境中取得更好的表现?

本文介绍 affordance 链 (CoA),这是一种规模化机器人模型的新方法,它通过结合顺序机器人 affordance 格式的推理来促进任务完成。具体来说,提示模型在采取行动之前考虑以下四种类型的affordance:(1) 目标affordance - 要操纵什么目标以及它在哪里;(2) 抓握affordance - 要抓握的特定目标部分;(3) 空间affordance- 放置目标的最佳空间;以及 (4) 运动affordance — 无碰撞的运动路径。通过将这些知识集成到策略模型中,机器人获得必要的背景信息,从而使其在推理过程中能够以更高的精度和鲁棒性采取行动。实验表明,CoA 的性能优于最先进的机器人基础模型,例如 OpenVLA 和 Octo。此外,CoA 对未见过的目标姿势表现出很强的泛化能力,可以识别自由空间,并避开新环境中的障碍物。

如图所示:Franka 机器人设置



视觉-语言-动作 (VLA) 模型的最新进展表明,使用互联网规模的数据进行训练可以使端到端策略学习模型的表现优于非 VLA 模型。然而,目前的方法往往严重依赖现成 LLM 或 VLM 的高级规划或任务分解,限制模型自行开发隐式推理的能力。OpenAI 最近的 O1 模型表明,LLM 可以通过广泛的推理链提高复杂任务的性能。如果将这种推理能力应用于机器人模型,预计可以增强其动作鲁棒性和通用性。然而,机器人技术中对自我驱动推理的探索仍未得到充分探索,这为未来的研究开辟了重要的前沿。

机器人技术中的affordance 。在机器人学习中,affordance的概念有多种解释。通常,affordance 被定义为目标的功能,包括目标是什么、如何操作以及目标物体与目标位置的空间关系。这个概念超越视觉属性,将观察结果直接与动作联系起来。许多基于学习的操纵方法已经证明了affordance预测的有效性,可用于 6 自由度抓取 [11, 12, 39] 和稳定的目标放置。它还可以通过多种方式表示 [5, 16, 17, 25, 28, 30, 31, 46, 49],例如部分分割、密集图像特征描述子和关键点。一些方法利用人类视频来获得affordance [2],而另一些方法使用视觉-语言模型 (VLM) 来预测表示空间affordance的点 [8, 47]。 RT-Affordance [32] 采用了更具描述性的affordance表示,而 TraceVLA [1] 则将视觉痕迹作为附加输入来增强 VLA。

语言和控制推理 。使用“逐步思考” [42] 提示大语言模型 (LLM) ,大大提高它们解决复杂任务的能力。此后,已开发许多方法 [3, 50] 来鼓励 LLM 中的更深层次推理,例如思维树 [45] 和代码链 [23],并将其确立为语言建模的标准实践。最近的研究利用 LLM 和视觉语言模型 (VLM) [10, 13–16, 25] 作为机器人的高级规划器,通常使用经过微调的开源模型或闭源 LLM 以及策略网络来执行低级任务。这些研究表明,详细的推理可以增强低级控制。ECoT [48] 引入一种 VLM 的推理策略,包括任务分解、子任务描述、细粒度移动指令、夹持器定位和桌上目标跟踪。然而,大量的输出会增加计算成本。

CoA 是一种在测试-时泛化模型推理的新视角,并利用这种生成的推理来促进策略学习过程。

本文工作以视觉-语言-动作 (VLA) 为基础,作为CoA策略的支柱。VLA 采用直接的策略学习方法:从预训练的视觉-语言模型开始,根据当前图像观察 I、任务指令 T 和推理 r 对其进行微调,以预测下一个机器人动作 a。VLA 有两种类型:自回归 VLA [1、7、21、34、48] 和基于扩散的 VLA [6、24、43、44]。前者使用视觉-语言模型词汇表中的离散动作token,通过下一个token预测实现类似于语言建模的动作生成。后者利用策略头 [4、5、26],例如扩散策略 [44] 或流匹配 [6],来输出连续的机器人动作。

本研究采用 DiffusionVLA [43] 模型,该模型将 Qwen2-VL [41] 视觉语言模型与用于动作预测的扩散模型头集成在一起。具体来说,该模型通过 VLM 主干输出语言,随后将语言嵌入注入策略模型以增强策略学习。此操作允许模型重用推理信息,同时实现比 ECoT [48] 更快的推理速度。

CoA 的定义

给定一个由 N 个专家演示组成的数据集 D = {(τ_1, g_1), . . . , (τ_N , g_N )},其中每个演示 τ_i 与自然语言中的任务描述 g_i 配对。每个任务描述 g 指定多个子任务的组合,每个演示 τ_i 由一系列观察表示。将 z 定义为指导任务的自然语言affordance推理。该模型将 z 分解为四个部分,z = {z_obj , z_grasp, z_spat, z_move},其中 z_obj 、z_grasp、z_spat 和 z_move 分别表示目标、抓握、空间和运动affordance。目标是学习一个中间语言输出 z : O × G → Z,将观察和任务描述映射到自然语言中的affordance推理。该中间输出为动作生成提供具体指导,从而能够生成低级动作 a。请注意,低级动作是根据演示、任务描述和affordance推理生成的:a ∼ p(a|τ, g, z)。

在本文方法中,将机器人affordance建模为自然语言格式的中间输出。以下将对每种affordance进行详细描述。

目标affordance :目标affordance使机器人能够确定要与哪个目标交互以及它位于何处,特别是当用户查询缺乏明确指令时。这些基础知识使机器人能够辨别它应该操纵的目标并在其环境中定位它。在设置中,要求机器人用自然语言通过名称识别目标,并使用边框格式预测其在图像中的位置。这种识别为机器人的决策和交互过程提供基础知识。

抓握affordance :抓握affordance包括可能的功能或操纵目标的方式。这种affordance超越了视觉特征,将观察结果直接与动作联系起来,对于需要 6-DoF(自由度)抓握的任务至关重要 [17, 31, 40]。先前的研究已经证明了affordance预测对于稳定目标处理和放置的有效性。抓握affordance的表示形式多种多样,包括部分分割或关键点。在该工作中,用一组 2D 点来表示目标的抓握点。

空间affordance :空间affordance是关于空间关系的指标,是模型理解 3D 世界的能力。这种affordance支持诸如识别用于目标放置或导航的自由空间等任务。例如,RoboPoint [47] 定位自由空间,SpatialVLM [8] 定量和定性地预测空间关系。在本文工作中,为机器人定义一个可操作的目的地,例如盘子上用于放置目标的空地或用于清洁的畅通路径。将空间affordance表示为一组 2D 坐标,以指示可行的操作区域。

运动affordance :运动affordance定义机器人在执行任务期间可以遵循的轨迹。该路径可能会根据环境因素而改变,例如沿预期轨迹引入的障碍物。通过对运动affordance进行建模,为机器人提供了可适应的行动路径,使其能够动态响应环境变化并有效完成任务。这些affordance共同使机器人能够理解并对其操作空间内的各种元素采取行动,从而增强其交互能力和响应能力。

更新CoA 。在训练和推理阶段,仅基于机器人和场景状态涉及affordance的子集。具体而言,该模型首先预测目标affordance和抓取affordance,这告诉模型要操作什么以及如何操作。机器人捕获目标后,会预测其空间affordance。整个动作期间都会预测运动affordance。通过实时更新CoA,确保引入的计算开销最小。

值得注意的是,语言生成通过下一个token预测进行优化,动作生成通过扩散模型目标进行更新。这种技术类似于视觉落地工作。用 DiffusionVLA 的预训练检查点来初始化模型。所有构建的数据都是共同训练的。

CoA的格式

有两种格式:一种是文本格式,另一种是图像格式。基于文本的格式提供一种结构化的语言方法来表示affordance,而基于图像的格式提供一种视觉视角,可以增强affordance提示在视觉复杂环境中的可解释性。此外,描述一个专门设计用于将基于图像affordance的提示链集成到策略模型中的新模块,从而使该模型能够利用视觉和语言提示来生成动作。

基于文本的CoA提示 。自然语言是表达视觉affordance最常用的方式。例如,在目标affordance中,一组坐标可以指定目标的位置,而空间affordance可以通过另一组坐标来传达。如图(顶部)提供使用自然语言表示各种affordance的示例。在实践中,避免使用固定的语言模板来描述affordance。相反,使用 ChatGPT 通过改变格式来丰富语言表达,类似于自然语言处理中的数据增强。这种方法有助于模型保留其对话能力。值得注意的是,基础模型天生就能够用自然语言进行推理,因此将其架构添加到策略模型中,以文本格式处理affordance。

基于图像的CoA提示 。受通过视觉提示增强模型性能的方法的启发,引入视觉affordance增强,它用直接的视觉提示补充自然语言描述。这种方法使模型能够更有效地解释和利用affordance信息。

具体来说,将坐标或点轨迹直接叠加到机器人之前的观察框架上,作为一种CoA提示的形式,以视觉方式引导模型。这种叠加提供清晰、可解释的结构,将目标及其在场景中的潜在动作联系起来,并有助于弥合描述性语言和实际视觉信息之间的差距。如图(底部)显示这种方法的示例,其中affordance以视觉方式在图像上分层。


对于适用于所有场景的移动affordance,用更细的点轨迹。这种设计选择可以防止这些轨迹引起过多的注意。此外,用更粗和更浅的颜色来表示关键元素,例如目标的边框、抓取点和空间affordance。这些视觉区别确保每种affordance类型都易于识别和一目了然地解释,从而使模型能够有效地解析视觉信息。

注入基于图像的CoA提示 。与基于文本的affordance链提示不同,基础模型本身不支持将图像作为策略网络的中间输入。为了克服这一限制,提出一个图像CoA注入模块,将视觉知识直接整合到策略模型中。该方法包括用视觉affordance增强机器人当前的观察,让模型直接从图像中保留和利用基于affordance的提示。具体来说,用来自基础 VLA 的预训练视觉编码器从图像中提取详细的特征表示,将其分解为多个块以捕获更精细的细节和空间上下文。这些视觉tokens被连接起来并通过多层感知器 (MLP) 层以减少通道维度。为了无缝注入图像CoA提示,利用特征线性调制 (FiLM) [36],它能够根据视觉上下文自适应地调节模型。这个分支类似于 DiffusionVLA [43] 中的推理注入模块。通过将图像affordance与 FiLM 相结合,确保模型能够有效地解释和响应决策过程中的视觉线索。基于图像的affordance注入,使模型能够处理更丰富的上下文信息。







请到「今天看啥」查看全文