专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
中国土木工程集团有限公司  ·  刘为民、陈思昌带队调研康恒环境三河市生活垃圾 ... ·  3 天前  
中国土木工程集团有限公司  ·  刘为民、陈思昌带队调研康恒环境三河市生活垃圾 ... ·  3 天前  
走出去情报  ·  1800MW丨东方电气签约中国自主品牌出口非 ... ·  4 天前  
东四十条资本  ·  刚刚,今年最大3D大模型融资来了 ·  6 天前  
东四十条资本  ·  刚刚,今年最大3D大模型融资来了 ·  6 天前  
濮阳日报新视角  ·  光刻机全新突破!国产DUA光刻机问世,相关概 ... ·  1 周前  
濮阳日报新视角  ·  光刻机全新突破!国产DUA光刻机问世,相关概 ... ·  1 周前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法

计算机视觉深度学习和自动驾驶  · 公众号  · 科技创业  · 2024-09-24 00:04

正文

24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。

具身指令遵循 (EIF) ,是在 3D 环境中导航和目标交互来执行自然语言指令的任务。EIF 的主要挑战之一是组合任务规划,这通常通过使用标记数据的监督学习或上下文学习来解决。为此,引入 Socratic Planner,这是第一个无需任何训练数据即可进行推断的零样本规划方法。Socratic Planner 首先通过自我提问和回答将指令分解为任务的子结构信息,然后将其转化为高级规划,即一系列子目标。子目标按顺序执行,基于视觉的重规划机制通过密集的视觉反馈动态调整规划。还引入了高级规划的评估指标 RelaxedHLP,以便进行更全面的评估。实验证明 Socratic Planner 的有效性,在 ALFRED 基准的零样本和少样本任务规划中,均取得了具有竞争力的表现,尤其是在需要高维推理的任务中表现出色。此外,通过结合环境视觉信息实现了对规划的精确调整。


随着人工智能和机器人技术的进步,人们越来越重视开发能够遵循自然语言指令的具身智体。具身指令遵循 (EIF) 任务 [26] 已成为此类智体的试验台,在交互式 3D 环境中根据人类指令 (例如“冲洗杯子并将其放入咖啡机”) 有效地生成和执行高级规划 (即子目标序列),仍然是挑战性的。现有的 EIF 方法主要依赖于监督学习 [2,8–10,14,17–19,21,26,28,29,31,32,38],其中具身智体在由指令和相应的、专家轨迹组成的人类注释数据上进行训练。然而,它们需要大量标记数据进行训练,并且通常难以泛化到未见过的指令或环境。最近的研究探索了在任务规划中利用大语言模型 (LLM) 的推理能力 [1,7,15,16,27,30,36,37,39]。这些方法中的大多数通过将上下文示例作为提示注入 LLM 来规划一系列子目标。虽然这种范式大大减轻了收集标记数据的负担,但基于 LLM 的 EIF 规划器 [30] 仍然需要数百个人工注释的数据才能利用上下文学习。

如图是与现有 EIF 方法比较的 Socratic Planner。Socratic Planner 通过自我提问和回答子结构信息来丰富零样本任务规划。基于问答对话,大语言模型 (LLM) 生成子目标。实线黑色箭头表示静态规划路径,虚线蓝色箭头表示在遇到执行失败时重规划路径,视觉-语言模型 (VLM) 的视觉反馈指导 LLM 修改规划。


LLM-Planner 经常在重规划时失败,因为它仅依赖一组可见目标,而这不足以解释当前的视觉状态。

Socratic Planner 由三个组件组成:Socratic 任务分解器 (STD)、任务规划器和基于视觉的 Socratic 重新规划器(VSR)。首先,STD 采用基于查询的方法,利用 LLM 通过自我提问和回答,将指令分解为子结构信息(例如,所需的子任务、它们的顺序、每个子任务的目标对象、如何具体执行每个子任务)。

STD 中的 LLM 通过自我提问和回答来分解任务。使用问答对,任务规划器通过 LLM 合成一系列子目标,其中每个子目标要么是动作-目标对(例如,(拿起,平底锅)),要么是包含动作、目标和容器的三元组(例如,(放,平底锅,冰箱))。将Socratic Planner 与分层语言条件空间模型 (HLSM) [2] 的低级控制器集成在一起,该控制器在环境中执行这些子目标。如果智体在按顺序执行子目标时遇到失败,基于更详细的视觉信息(例如,场景的视觉描述、子目标可行性和当前场景中的失败原因),VSR 中的视觉-语言模型 (VLM) [13] 向任务规划器提供密集的视觉反馈,无需直接依赖人工或模拟数据。这最大限度地提高了 LLM 的推理能力,从而有效地调整规划。

任务中子结构信息的深度和内容因其复杂性而异。为了帮助大语言模型 (LLM) 准确推理一般体现指令遵循 (EIF) 任务的这些信息,以“要发现的事”的形式为它们提供指导。这些指令促使 LLM 考虑一些基本方面,例如识别组成子任务、它们的排序、目标对象和任务执行的具体方法。如图所示,STD 的提示包括前面提到的“要发现的事”,以及 LLM 的使命、简明的子任务解释和 3D 模拟器规则。LLM 最终生成输出即问答序列 (QA),根据提示发现子结构信息。


利用生成的 QA,任务规划器根据 LLM 生成高级规划。该规划由一系列子目标组成,其中每个子目标都是原始动作、交互目标以及可选容器的组合。

当执行出现错误,启动 VLM。假设当前子目标的目标对象是见过的,并且操作似乎有效。在这种情况下,智体认为失败是由低级控制器故障引起的,并再次重试子目标。否则,VLM 将根据从 VLM 本身获得的提示,生成反馈(即失败的原因),表示为 f。利用这种密集的视觉反馈,任务规划器最终推理修改规划并进行调整,以使其更适合环境。修改规划后,执行将从修订后的子目标恢复,低级控制器将继续执行操作序列。这个迭代过程即VSR,它使 LLM 的推理更加贴近环境。

最后,总结算法如下:


如图是一个VSR的示例:


使用 ALFRED 基准 [26] 验证 Socratic Planner 的具身指令跟随 (EIF) 能力。此基准评估从自然语言指令和自我中心视觉到长期家务任务动作序列的映射。ALFRED 数据集包含 25,000 条语言指令,描述 8,000 个专家演示,每个演示对应一个高级规划。该数据集包括 120 个场景中的七种可接受动作、108 个不同目标和七种类型的任务。数据分为训练、验证和测试部分,其中验证和测试数据集进一步分为“见过”和“未见过”子集。前者包含训练数据集中可见环境的样本,而后者包含不可见环境的样本。

推荐文章
东四十条资本  ·  刚刚,今年最大3D大模型融资来了
6 天前
东四十条资本  ·  刚刚,今年最大3D大模型融资来了
6 天前
煮酒论史  ·  殇城:震后9年了,总觉得她没走
7 年前