24年10月来自韩国ETRI的论文“A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM”。
视觉-语言-动作 (VLA) 模型因其能够将视觉环境与语言命令相结合,使机器人能够执行复杂任务而受到越来越多的关注。然而,由于现有模型的计算需求很高,实现高效的实时性能仍然具有挑战性。为了解决这个问题,Dual Process VLA (DP-VLA),采用一个受 Dual Process 理论启发的分层框架。DP-VLA 利用大系统 2 模型 (L-Sys2) 进行复杂的推理和决策,而小系统 1 模型 (S-Sys1) 处理实时运动控制和感官处理。利用视觉-语言模型 (VLM),大系统 2 模型(L-Sys2) 以低频率运行,从而降低了计算开销,而 小系统 1 模型(S-Sys1)则确保快速准确地执行任务。在 RoboCasa 数据集上的实验结果表明,DP-VLA 实现了更快的推理和更高的任务成功率,为高级机器人应用提供了可扩展的解决方案。
视觉-语言-动作 (VLA) 模型旨在通过以下三个关键步骤使机器人能够根据用户的任务指令生成动作:(1) 解释任务指令,(2) 分析与任务相关的当前视觉信息,以及 (3) 预测执行所需的动作。通过结合视觉和语言输入,VLA 模型允许机器人使用视觉环境和语言命令执行复杂任务。最近,大语言模型 (LLM) [1、2、3] 和视觉-语言模型 (VLM) [4、5、6] 报告了对通用理解的较高能力。VLA 模型利用 VLM 来增强机器人的感知能力,在解释和执行复杂任务的能力方面显示出令人鼓舞的结果。由此,最近的 VLA 已展示出在各种任务中准确的动作生成能力,它们利用现实环境中的各种机器人硬件,例如 RT-2 [7]、RoboFlamingo [8]、OpenVLA [9]、LLaRA [10] 和 LLARVA [11]。
实现这一进步的关键因素之一是大型机器人数据集的可用性,这对于使用 VLM 训练 VLA 至关重要,因为 VLM 需要大量数据才能有效地生成适当的动作。Open-X-Embodiment (OXE) 数据集 [12] 已全面发布,其中包含多个研究小组在现实环境中从各种机器人平台收集的数据,并以标准化方式格式化,为该领域的进步做出了重大贡献。OXE 数据集是使用来自 22 个不同机器人的数据创建的,这些数据是与 21 个机构合作收集的,展示了 527 种不同的技能。类似地,使用 Franka Emika Panda 机器人的 DROID 数据集 [13] 提供了涵盖一系列任务和环境的广泛机器人轨迹。DROID 数据集包含 76,000 条演示轨迹,即 350 小时的交互数据,收集自 564 个场景和 86 个任务。此外,随着渲染技术的进步,基于模拟的机器人数据集(例如 Calvin [14] 和 RoboCasa [15])也已向研究界开放。
尽管最近基于大型机器人数据集的 VLA 模型取得了进展,但由于计算需求高,使用 VLM 的 VLA 方法在实时应用中仍然面临重大挑战。这导致推理速度缓慢,导致需要快速动作预测的机器人运动不自然且不连续。例如,RT-2 [7] 证明他们的 55B 模型以 1 到 3 Hz 的频率运行,而 5B 模型在实验条件下以大约 5 Hz 的频率运行。类似地,Open-VLA [9] 在商用 GPU 上实现了 6 Hz 的处理速度。另一方面,BC Transformer [16] 和 ALOHA [17] 运行速度很快(约 50Hz),但缺乏通用推理能力。因此,它们在未见过的环境中性能会下降。此外,VLA 模型仍然需要微调以适应特定环境和机器人硬件,这会带来计算负担,在训练期间会消耗大量 GPU 内存和时间。
本解决方案从人类认知心理学中汲取了灵感。根据关于Dual Process理论 [18, 19] 的文献,有两种不同的思维模式:系统 1 和系统 2。
系统 1:这种模式快速、自动且直观。它依靠启发式方法(心理捷径)以很少的自觉努力做出快速决策。虽然容易产生偏见,但系统 1 对于常规任务和快速反应非常有效。
系统 2:这种模式代表一种更慢、更慎重和分析性的思维模式。它涉及有意识的思考、仔细的评估和逻辑推理,使其适合于复杂的决策、解决问题和覆盖系统 1 产生的本能反应。
系统 1 主要与更原始和自动的大脑结构相关,例如大脑边缘系统,而系统 2 与前额叶皮层相关,后者负责高阶推理和有意识的控制。这一概念经常在人工智能研究中被采用,以提高效率或加速处理。例如,Qi [20] 实现了视觉Transformer (ViT) 充当系统 1,VLM 充当系统 2 的分离,旨在提高持续学习能力。同样,Yoshua Bengio 也提出了类似系统 2 的人工智能流程,提出了一种区分快速、无意识(系统 1)处理和更具深思熟虑(系统 2)方法的机制。这种分离使人工智能系统能够高效处理频繁和常规任务,同时将复杂的推理保留用于专门处理 [21]。
利用Dual Process 理论的概念,设计将整体功能划分为两个子功能的方法:简单任务(如动作生成)和复杂任务(如推理)。具体来说,利用 VLM 充当系统 2,它以低频率处理以处理推理和复杂的决策。同时,采用小型机器人策略作为短期规划和运动控制模块,使确定的意图适应不同的感官输入。这种模块化设计不仅减少冗余计算,而且使机器人动作更加流畅自然,从而解决以前 VLA 方法的局限性,这些方法通常存在处理时间慢和动作不连续的问题。通过调度意图模块(系统 2)在多个时间步骤中以较低的频率运行,实现了计算效率的提高,而不会牺牲性能。这种层次分离确保简单、频繁的任务得到有效管理,而更复杂和不频繁的操作则获得必要的计算重点。
如图所示Dual Process过程框架整合了系统 2 和系统 1 的概念。大型系统 2 模型 (L-Sys2) 提取潜特征,这些特征既编码与用户指令相关的推理信息,也编码环境背景。这些高级表示指导小型系统 1 模型 (S-Sys1) 实时生成细粒度操作,利用各种观察结果和机器人的状态。
L-Sys2 既接收包含环境全面视图的视觉输入,也接收用户的语言指令。它利用包括 LLM 在内的大模型来生成潜特征,这些特征包含有关在环境中应进行的动作逻辑和分析信息。L-Sys2 旨在在环境完全改变时运行,需要机器人进行适应。
假设从收到新指令到完成执行,视觉信息基本保持一致。L-Sys2 可以实例化为 VLM,例如 LLaVA [5]、GPT-4v [4] 或 CLIP [22],用于解释图像和文本,也可以实例化为 VLA 模型,例如 OpenVLA [9]、Octo [23] 或 RT-2 [7],用于提取动作。换句话说,这可以通过解释视觉和文本信息来提取潜特征来实现。