先前的研究表明,将机器人操作分解为语义和空间路径可提高泛化能力、数据效率和对多模态信息的理解。受这些路径架构的启发,我们提出了一种新颖的、样本效率高的方法,通过利用自监督的视觉语言可供性模型,从现实世界中的非结构化、离线和无重置数据中学习通用语言条件机器人技能。我们的主要观察是,我们不必使用单个端到端模型扩展数据收集以学习如何从任何当前状态达到任何可达到的目标状态,而是可以使用基于语义概念的高级流和基于 3D 空间交互知识的低级流分层地分解目标实现问题,如图 1 所示。
我们的目标是学习一个可供性模型
,该模型在给出自然语言指令时可以预测世界位置。与之前需要手动绘制分割蒙版的可供性学习方法不同,我们从非结构化的、人类遥控游戏数据中自动提取可供性。利用游戏数据有几个优点:它成本低且易于收集,包含一般行为,并且不是随机的,而是由人类对可供性的了解构建的。具体来说,游戏数据由一个未分段的长数据集 D 组成,该数据集包含用户在未考虑特定任务的情况下遥控机器人所提供的具有语义意义的行为。完整的状态-动作流
被重新标记,以将前面的状态和动作视为达到访问状态的最佳行为。此外,我们假设少量随机序列(不到数据集的 1%)用语言指令注释,这些指令描述了序列中正在完成的任务。
为了从非结构化数据中提取视觉可供性,我们使用夹持器动作作为启发式方法来发现与任务完成相关的场景元素。考虑以下场景:随机序列
,其中 k 表示窗口大小,用语言指令
注释。如果对于序列中的任何状态 si,动作 ai 包含夹持器关闭信号,我们假设在末端执行器的位置有一个执行任务 l 所需的对象。为了学习视觉语言可供性模型,我们将末端执行器世界位置投影到相机图像以获得像素
,并使用所述像素和语言指令 l 注释前几帧,如图 2 所示。直观地说,这允许可供性模型学习预测完成任务 l 所需的对象对应的像素。
在测试期间,给定预测的像素位置,假设现有的相机校准,需要深度信息来计算基于模型的策略应移动到的 3D 位置。我们的模型不依赖于感官深度观察,而是通过使用夹持器闭合期间末端执行器的位置作为监督来训练以产生估计深度。我们公式的一个关键优势是,通过从视觉语言特征预测深度,我们的模型可以更好地适应场景中可能发生的部分遮挡。
B. 语言条件视觉可供性
我们的视觉语言可供性模型(见图 3)由一个编码器解码器架构和两个解码器头组成。第一个头预测图像上的分布,表示每个像素成为可供点的可能性。第二个头预测高斯分布,从中采样相应的预测深度。两个头共享相同的编码器,并以输入语言指令为条件。正式地,给定一个由视觉观察 I 和语言指令 l 组成的输入,可供性模型
产生的输出 o 为(1)逐像素热图
,表示可供执行命令任务的区域和(2)相应的深度估计 d。我们将此映射表示为
。
1)视觉模块:
视觉预测模块根据输入
生成热图 A。为了训练它,我们对 A 的所有像素应用 softmax 函数。这会导致图像上的分布 V,其中所有像素值的总和等于1。
类似地,通过将其所有值初始化为零,将目标 T 构造为与 V 具有相同形状。然后,我们使用与当前状态输入相对应的投影位置的像素生成二进制独热像素图。最后,我们使用交叉熵损失优化视觉预测模块:
其中
和
。这种优化方案允许视觉模块学习图像的多模态信念,其中具有最高值的像素表示给定输入的最可能图像位置。在推理过程中,我们使用密集的像素级输出预测 A 来选择像素位置
: