DaDu-E：重新思考大语言模型在机器人计算流水线中的作用

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-16 00:06

正文

24年12月来自中科院计算所、深圳AI机器人所、北理工、中科院自动化所和中科院大学的论文“DaDu-E: Rethinking the Role of Large Language Model in Robotic Computing Pipeline”。

即使使用大语言模型 (LLM) 作为核心规划器，在开放环境中执行复杂任务对于机器人来说仍然具有挑战性。许多基于 LLM 的规划器由于参数数量庞大而效率低下，并且由于它们在开环系统中运行而容易出现不准确的情况。原因在于，仅仅应用 LLM 作为规划器是不够的。DaDu-E，一种针对具身 AI 机器人的强大闭环规划框架。具体来说，DaDu-E 配备一个相对轻量级的LLM、一套封装的机器人技能指令、一个强大的反馈系统和记忆增强功能。这些组件共同使得 DaDu-E 能够 (i) 主动感知和适应动态环境、(ii) 在保持高性能的同时优化计算成本、以及 (iii) 利用其记忆和反馈机制从执行失败中恢复。在现实世界和模拟任务上进行的大量实验表明，DaDu-E 的任务成功率可与 COME-Robot 等具有更大规划模型的具身人工智能机器人相媲美，同时将计算需求降低 6.6 倍。

在机器人计算栈的规划和决策模块中，应用多模态大语言模型 (LLM) 正在成为提高机器人解决长期任务能力的实用解决方案。配备 LLM 作为规划器的机器人，可以直接从用户那里获取灵活的指令，将复杂的任务分解为连续的简单步骤并完成它们以完成复杂的任务。这种方法显著提高传统基于程序机器人的可用性和性能。

虽然先前的研究主要集中于将 LLM 集成到计算栈中并提高任务的成功率（Zhi，2024；Liang，2023；Ahn，2022），但它们通常指的是来自数十亿模型参数和无数训练数据所训练的规划能力。因此，这些工作通常依赖于在本地服务器上运行的不兼容 LLM，并部署在云数据中心。

通过多模态 LLM 进行长期任务规划。规划能力决定机器人智能的上限。传统的基于规则规划器可以使机器人解决简短而简单的任务。大语言模型的出现展现推理和复杂任务分解的潜力（Ye et al.，2023；Ho et al.，2022；Shen et al.，2023），因此很快就被应用于机器人规划中。首先，研究人员尝试将 LLM 纳入机器人的规划周期（Kannan，2023；Ding，2023）。很快，多-模型 LLM 或 VLM 就会占据主导地位。这些努力包括 Code-as-Policies（Liang，2023）、PaLM-E（Driess，2023）和机器人Transformer（Brohan，2022；Brohan，2023；Joublin, 2024) 表现出长期任务成功率的显著提高。通常，这些 VLM 采用语言指令（例如“清理桌子”和视觉观察）并为机器人生成动作序列来完成任务。

端到端方法和基于模块化的解决方案。一般来说，LLM的用途可以分为两类。第一种是端到端方法，直接从模型输出机器人动作（Kim et al.，2024；Team et al.，2024；Black et al.，2024）。端到端方法必须从头开始训练模型或对训练好的模型进行微调，这需要大量数据。模块化的解决方案，倾向于将机器人自身的技能包装到API中，并使用模型基于API进行编程（Zhi，2024）。这些技能包括机器人计算管道中的一个模块，例如导航和感知，或多个模块的组合，例如探索和抓取。

闭环控制。第一批研究致力于利用 LLM 作为规划模块执行开环控制，其中机器人将执行规划器提供的指令集（Ahn，2022；Dalal，2024）。然而，通过反馈进行重规划或闭环控制是使机器人执行长期任务的关键步骤之一（Li et al.，2024b；Bu et al.，2024）。 COME-Robot（Zhi，2024）和 REPLAN（Skreta，2024）开始利用他们用于规划的 LLM 来消化视觉反馈以帮助重规划。

本文提出一个有效的 LLM 规划模块来解决长期任务。具体来说，在收到用户的指令后，规划模块会将任务分解为机器人定义和编程的技能链。每项技能执行完毕后，规划模块都会提供一个或多个视觉反馈信息。可以根据视觉反馈修改技能链。在多模态 LLM 的基础上，在规划模块中增加一个记忆模块，用于记录最近使用的目标，以减轻 LLM 的负担。

架构

在 DaDu-E 中构建三个主要模块用于稳健的闭环规划，如图所示：指令集、规划反馈和记忆增强。这些模块解决现有机器人系统中的关键缺陷，这些缺陷常常导致静态和不可靠的任务执行。指令集提供任务指令的结构化、机器可读的表示，克服自然语言命令固有的歧义性。这种结构确保清晰度，并最大限度地减少 LLM 规划器在任务分解和执行过程中的错误。如果没有这样的模块，机器人通常无法解释复杂或上下文相关的命令，从而导致任务失败或误解。 LLM 首先从用户那里获取指令，然后将其分解为子任务，以便这些指令集执行。每条指令都具有其相关的运行函数，以获得更好的性能。规划反馈引入一种强大的实时适应机制，使系统能够根据环境变化或规划失败动态地重新规划行动。这种能力至关重要，因为静态规划方法很脆弱，通常无法处理动态环境中的意外变化，例如缺少所需目标或路径受阻。此功能对于在动态、不可预测的环境中运行至关重要。最后，记忆增强增强机器人重用先验知识的能力，从而减少延迟并提高任务可靠性，这在环境变化的情况下尤其有用。完全依赖实时数据的传统系统，缺乏存储和调用过去交互的能力，导致决策过程的重规划效率低下和冗余。

指令集

指令是规划器和机器人之间的桥梁。详细的、预先编程的指令为机器人的能力提供封装，就像 ARM（ARM Limited，2013）和 X86（Intel Corporation，2021）等指令集架构 (ISA) 为程序员提供底层硬件封装一样。因此基于LLM的规划器，只能专注于高级规划，引导机器人完成长期、复杂的任务。

设计低级指令集的趋势是提供尽可能丰富的指令。设计原则是为LLM提供巨大的采样空间来挑选最佳的动作链。例如，机器人Transformer（RT-1）（Brohan，2022）为规划器提供九种技能，而 COME-Robot 提供六种技能（Zhi，2024）。在 COME-Robot 提供的六种技能中，有些是重叠的。例如，技能探索本地和探索全局可以用技能导航和环境地图代替。

丰富的指令虽然可以增强规划器的搜索空间，但也会给模型带来负担。首先，目前，指导通常以不同的提示形式输入到 LLM 中；更大的指令集意味着更长的上下文，这对于具有 70 亿个参数 LLM（例如 LLaMa）来说通常更具挑战性（Touvron，2023）。其次，并非所有较大指令集中的技能都会被经常使用。有些甚至可能导致执行时间更长和规划结果更糟。具体来说，在评估中技能探索可以导致更短的成功路径长度（SPL）（Anderson，2018）。

本文目标是提供针对工作环境和应用量身定制的学习技能组合。例如，在仓库环境中，机器人执行组织目标和为用户挑选目标等任务，指令集应该很简单并且只包含三种技能。navigate 指令引导机器人到达指定货架附近，并将其定位在面向货架中心的位置。由于为规划器提供详细的语义地图，因此 navigate 指令可以将语义信息转换为几何信息。grasp 指令利用传感器和语义信息指挥机器人抓取特定目标。相比之下，place 指令控制机器人将目标放置在它前面的桌子上。

随着指令集大小的减小，显著减少上下文长度。输入到规划器的提示平均长度只有 543 个 tokens，比现有方法短得多。规划器将生成一个 JSON 文件片段，列出执行长期复杂任务所需采取的动作。请注意，JSON 文件不是不可改变的；由于会提供频繁的反馈，动作列表可能会随着任务的执行而变化。

规划反馈

大多数基于 LLM 的规划器都是开环控制，其中机器人只执行规划器生成的指令而不提供反馈。 COME-Robot 是最早在规划器中引入反馈机制的作品之一。它提供任务是否成功的即时反馈，并将相关图像作为反馈给系统。

更进一步，本文让规划器评估先前的指令，并将结果作为进一步规划的反馈。例如，一旦 navigate 指令完成并且下一个指令是 grasp，规划器将评估机器人是否处于 grasp 指令的最佳位置。具体来说，将先前指令的结果、机器人的当前状态、当前位置捕获的图像以及使用视觉-语言模型 (VLM) 解析图像的结果（例如图像中的目标和几何关系。同时，将当前状态发送回LLM规划器以获取下一个循环动作。

有了详细的反馈，规划器就需要根据反馈来评估之前的指令，考虑是否完成下一个指令并制定进一步的规划。具体来说，要求规划器做两件事。如果规划器认为先前的指令没有被正确执行，它可以合理地改变未来的规划。否则，按照原规划进行。例如，到达当前表后，如果该表不包含指定的抓取目标，则 LLM 规划器将指示机器人导航到下一个潜在表并重复此过程，直到探索完所有可能的表。

即使前一条指令已成功完成，也可能会重规划。例如，当规划器发出 navigate 指令，然后发出 grasp 指令时，第一个导航通常保持粗粒度。当机器人完成导航指令后，它通常会定位到靠近要拾取的物体的位置。然而，由于机器人与目标（即形状不规则的大桌子）之间的几何距离，grasp 指令可能无法成功执行。在这种情况下，规划器应该而且将会改变规划的其余部分，具体来说，是将下一个指令从 grasp 改为 navigate 到更靠近目标的位置。

机器人必须导航到最佳的桌子一侧进行抓取。例如，如果目标“苹果”在正面，而机器人在背面，那么距离就超出了手臂的工作范围。为了解决这个问题，在达到导航目标时捕获当前桌子图像，并将其发送到基于 LLaVA-OneVision-8B（Li et al.，2024a）的 VLM 规划器，该规划器将正确的桌子一侧确定为最终导航目标。

记忆增强

机器人系统的记忆模块记为 M，由两个主要部分组成：短期记忆 M/S 和长期记忆 M/L。长期记忆维护环境的语义图，其功能类似于人类大脑中的语义记忆。相比之下，短期记忆关注的是经常变化的信息，例如目标的状态和位置，类似于大脑中的情景记忆。

DaDu-E：重新思考大语言模型在机器人计算流水线中的作用

正文

请到「今天看啥」查看全文