Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法

计算机视觉深度学习和自动驾驶 · 公众号 · 科技创业 · 2024-09-24 00:04

主要观点总结

本文介绍了一种名为Socratic Planner的零样本规划方法，用于具身指令遵循（EIF）任务。该方法通过自我提问和回答将指令分解为子结构信息，并转化为高级规划，即一系列子目标。在面临执行失败时，通过视觉反馈动态调整规划。实验证明，Socratic Planner在ALFRED基准的零样本和少样本任务规划中表现优异，尤其是在需要高维推理的任务中。与其他依赖大量标记数据的方法相比，Socratic Planner通过结合环境视觉信息实现了对规划的精确调整，并且无需依赖大量人工注释数据。

关键观点总结

关键观点1: Socratic Planner是一种零样本规划方法，用于具身指令遵循（EIF）任务。

通过自我提问和回答分解指令为子结构信息，并转化为高级规划。

关键观点2: Socratic Planner结合环境视觉信息实现精确调整规划。

与其他方法相比，减少了依赖大量标记数据和人工注释数据的需要。

关键观点3: 实验证明Socratic Planner在ALFRED基准测试中表现优异。

特别是在需要高维推理的任务中，Socratic Planner表现出强大的能力。

正文

24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。

具身指令遵循 (EIF) ，是在 3D 环境中导航和目标交互来执行自然语言指令的任务。EIF 的主要挑战之一是组合任务规划，这通常通过使用标记数据的监督学习或上下文学习来解决。为此，引入 Socratic Planner，这是第一个无需任何训练数据即可进行推断的零样本规划方法。Socratic Planner 首先通过自我提问和回答将指令分解为任务的子结构信息，然后将其转化为高级规划，即一系列子目标。子目标按顺序执行，基于视觉的重规划机制通过密集的视觉反馈动态调整规划。还引入了高级规划的评估指标 RelaxedHLP，以便进行更全面的评估。实验证明 Socratic Planner 的有效性，在 ALFRED 基准的零样本和少样本任务规划中，均取得了具有竞争力的表现，尤其是在需要高维推理的任务中表现出色。此外，通过结合环境视觉信息实现了对规划的精确调整。

随着人工智能和机器人技术的进步，人们越来越重视开发能够遵循自然语言指令的具身智体。具身指令遵循 (EIF) 任务 [26] 已成为此类智体的试验台，在交互式 3D 环境中根据人类指令 (例如“冲洗杯子并将其放入咖啡机”) 有效地生成和执行高级规划 (即子目标序列)，仍然是挑战性的。现有的 EIF 方法主要依赖于监督学习 [2,8–10,14,17–19,21,26,28,29,31,32,38]，其中具身智体在由指令和相应的、专家轨迹组成的人类注释数据上进行训练。然而，它们需要大量标记数据进行训练，并且通常难以泛化到未见过的指令或环境。最近的研究探索了在任务规划中利用大语言模型 (LLM) 的推理能力 [1,7,15,16,27,30,36,37,39]。这些方法中的大多数通过将上下文示例作为提示注入 LLM 来规划一系列子目标。虽然这种范式大大减轻了收集标记数据的负担，但基于 LLM 的 EIF 规划器 [30] 仍然需要数百个人工注释的数据才能利用上下文学习。

如图是与现有 EIF 方法比较的 Socratic Planner。Socratic Planner 通过自我提问和回答子结构信息来丰富零样本任务规划。基于问答对话，大语言模型 (LLM) 生成子目标。实线黑色箭头表示静态规划路径，虚线蓝色箭头表示在遇到执行失败时重规划路径，视觉-语言模型 (VLM) 的视觉反馈指导 LLM 修改规划。

Socratic Planner 由三个组件组成： Socratic 任务分解器 (STD) 、任务规划器和基于视觉的 Socratic 重新规划器(VSR) 。首先，STD 采用基于查询的方法，利用 LLM 通过自我提问和回答，将指令分解为子结构信息（例如，所需的子任务、它们的顺序、每个子任务的目标对象、如何具体执行每个子任务）。

STD 中的 LLM 通过自我提问和回答来分解任务。使用问答对，任务规划器通过 LLM 合成一系列子目标，其中每个子目标要么是动作-目标对（例如，（拿起，平底锅）），要么是包含动作、目标和容器的三元组（例如，（放，平底锅，冰箱））。将Socratic Planner 与分层语言条件空间模型 (HLSM) [2] 的低级控制器集成在一起，该控制器在环境中执行这些子目标。如果智体在按顺序执行子目标时遇到失败，基于更详细的视觉信息（例如，场景的视觉描述、子目标可行性和当前场景中的失败原因），VSR 中的视觉-语言模型 (VLM) [13] 向任务规划器提供密集的视觉反馈，无需直接依赖人工或模拟数据。这最大限度地提高了 LLM 的推理能力，从而有效地调整规划。

任务中子结构信息的深度和内容因其复杂性而异。为了帮助大语言模型 (LLM) 准确推理一般体现指令遵循 (EIF) 任务的这些信息，以“要发现的事”的形式为它们提供指导。这些指令促使 LLM 考虑一些基本方面，例如识别组成子任务、它们的排序、目标对象和任务执行的具体方法。如图所示，STD 的提示包括前面提到的“要发现的事”，以及 LLM 的使命、简明的子任务解释和 3D 模拟器规则。LLM 最终生成输出即问答序列 (QA)，根据提示发现子结构信息。

当执行出现错误，启动 VLM。假设当前子目标的目标对象是见过的，并且操作似乎有效。在这种情况下，智体认为失败是由低级控制器故障引起的，并再次重试子目标。否则，VLM 将根据从 VLM 本身获得的提示，生成反馈（即失败的原因），表示为 f。利用这种密集的视觉反馈，任务规划器最终推理修改规划并进行调整，以使其更适合环境。修改规划后，执行将从修订后的子目标恢复，低级控制器将继续执行操作序列。这个迭代过程即VSR，它使 LLM 的推理更加贴近环境。

最后，总结算法如下：