专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
鲁中晨报  ·  霍启刚,有新职 ·  昨天  
山东省交通运输厅  ·  林武会见中国东航客人 ·  昨天  
鲁中晨报  ·  巨匠陨落!曾亮相央视《新闻联播》 ·  2 天前  
德州晚报  ·  免费上幼儿园?山东教育部门回应! ·  2 天前  
51好读  ›  专栏  ›  学姐带你玩AI

ICRA 2024 | 基于Transformer大模型实现导航、探索、碰撞

学姐带你玩AI  · 公众号  ·  · 2024-07-29 18:06

主要观点总结

本文介绍了一种新型的统一导航策略——NoMaD,这是一种目标条件扩散策略,能够执行与任务无关的探索和面向任务的导航。该策略使用高容量Transformer编码器和掩码注意方法,能够根据任务进行灵活的条件调整,并使用扩散模型对观察到的操作进行建模。在以前从未见过的室内和室外环境中的实验表明,NoMaD的性能比最先进的方法提高了25%以上,同时所需的计算资源减少了15倍。文章还讨论了该方法的局限性和未来可改进的方向。

关键观点总结



正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:http://arxiv.org/abs/2310.07896

项目主页:https://general-navigation-models.github.io/nomad/index.html

unset unset 摘要: unset unset

机器人在陌生环境中导航的学习需要为面向任务的导航(即,到达机器人已定位的目标)和与任务无关的探索(即,在新环境中搜索目标)提供策略。通常,这些角色由单独的模型处理,例如通过使用子目标候选、规划或单独的导航策略。在本文中,我们描述了如何训练一个统一的扩散策略来处理目标导向导航和与目标无关的探索,后者提供搜索新环境的能力,前者提供在找到用户指定的目标后到达该目标的能力。我们表明,与使用生成模型中的子目标候选的方法或基于潜在变量模型的先前方法相比,这种统一策略在导航到新环境中的视觉指示目标时可带来更好的整体性能。我们使用基于来自多个地面机器人的数据训练的大规模 Transformer 策略来实例化我们的方法,并使用扩散模型解码器来灵活地处理目标条件和与目标无关的导航。我们在现实世界的移动机器人平台上进行的实验表明,与五种替代方法相比,该方法可以在看不见的环境中实现有效导航,并且尽管使用的模型比最先进的方法要小,但性能却有显著的提高,碰撞率也更低。

unset unset 1 引言 unset unset

机器人学习为我们提供了获取多任务策略的强大工具,这些策略在以目标或其他任务规范为条件时可以执行各种不同的行为。此类策略之所以具有吸引力,不仅是因为它们具有灵活性,还因为它们可以利用来自各种任务和领域的数据,并通过在这些设置之间共享知识,获取更高效、更通用的策略。然而,在实际设置中,我们可能会遇到机器人不知道要执行哪个任务的情况,因为环境不熟悉、任务需要探索或用户提供的指示不完整。在这项工作中,我们研究了机器人导航领域中此问题的一个特别重要的实例,其中用户可能以视觉方式(即通过图片)指定目的地,而机器人必须通过搜索其环境来找到该目的地。在这样的设置下,仅靠训练标准多任务策略来执行用户指定的任务是不够的:我们还需要某种方式让机器人进行探索,在弄清楚如何执行所需的任务(即定位感兴趣的对象)之前,可能会尝试不同的任务(例如,搜索环境的不同可能目的地)。先前的研究通常通过训练单独的高级策略或目标候选系统来应对这一挑战,该系统可生成合适的探索性任务,例如使用高级规划、分层强化学习和生成模型。然而,这会带来额外的复杂性,并且通常需要特定于任务的机制。我们能否训练一个单一的高度表达策略,既可以表示特定于任务的行为,也可以表示与任务无关的行为,利用与任务无关的行为进行探索,并根据需要切换到特定于任务的行为来解决任务?

在本文中,我们提出了一种此类策略的设计,即结合 Transformer 主干(用于对高维视觉观察流进行编码)和扩散模型(用于对未来动作序列进行建模),并将其实例化,以解决新环境中的视觉探索和目标搜索这一特定问题。我们的主要见解是,这种架构特别适合对特定任务和与任务无关的路径进行建模,因为它提供了高容量(用于对感知和控制进行建模)以及表示复杂、多模态分布的能力。

图1:NoMaD 是第一个灵活条件化的机器人动作扩散模型,可以在以前未见过的环境中执行目标条件导航和无向探索。它使用目标掩码来条件化可选目标图像,并使用扩散策略来模拟具有挑战性的现实环境中复杂的多模态动作分布。

我们工作的主要贡献是目标掩码扩散导航(NoMaD),这是一种用于在以前未见过的环境中进行机器人导航的新型架构,它使用统一的扩散策略在结合图形搜索、边界探索和高度表现力的策略的框架中联合表示探索性任务无关行为和目标导向任务特定行为。我们在具有挑战性的室内和室外环境中对无方向和目标条件实验中的 NoMaD 性能进行了评估,并报告了优于最先进技术的改进,同时计算效率提高了 15 倍。据我们所知,NoMaD 是目标条件动作扩散模型的第一个成功实例,也是部署在物理机器人上的任务无关和面向任务行为的统一模型。

unset unset 2 相关工作 unset unset

探索新环境通常被定义为高效绘图问题,即通过最大化信息来引导机器人进入新区域。一些先前的探索方法使用局部策略来为机器人生成控制动作,而另一些则使用基于边界方法的全局策略。然而,如果没有可靠的深度信息,构建高保真几何地图可能很困难。受先前工作的启发,我们将探索问题分解为 (i) 可以采取各种短期行动的学习控制策略,以及 (ii) 基于拓扑图的高级规划器,该规划器使用该策略进行长期目标搜索。

之前有几项研究提出了基于学习的机器人探索方法,即利用模拟中的特权信息或直接从现实世界经验中学习。这些策略已通过强化学习进行训练,以最大化覆盖范围、预测语义丰富的区域、内在奖励,或结合潜在变量和可供性模型进行规划。然而,在模拟中训练的策略往往很难迁移到现实世界环境中,我们的实验表明,即使是在现实世界数据上训练的最佳探索策略,在复杂的室内和室外环境中也表现不佳。

与 NoMaD 最接近的相关工作是 ViNT,它结合使用目标条件导航策略和单独的高容量子目标候选模型。子目标候选模型被实例化为一个 300M 参数图像扩散模型,根据机器人的当前观察生成候选子目标图像。NoMaD 使用扩散模型的方式不同:我们不是使用扩散生成子目标图像并根据这些生成进行条件设定,而是直接使用扩散对机器人观察条件下的动作进行建模。从经验上讲,我们发现 NoMaD 在无向探索中的表现比 ViNT 系统高出 25% 以上。此外,由于 NoMaD 不会生成高维图像,因此它需要的参数减少了 15 倍以上,从而提供了一种更紧凑、更高效的方法,可以直接在性能较差的机载计算机上运行(例如 NVIDIA Jetson Orin)。

预测机器人动作序列以进行探索的一个关键挑战是难以对多模态动作分布进行建模。先前的研究已经通过探索不同的动作表示解决了这个问题,例如量化动作的自回归预测、使用潜在变量模型、切换到隐式策略表示,以及最近使用条件扩散模型进行规划和控制。状态或观察条件的动作扩散模型特别强大,因为它们能够对复杂的动作分布进行建模,而无需推断未来状态/观察的成本和额外复杂性。NoMaD 通过额外调节机器人的观测和可选目标信息上的动作分布来扩展此公式,从而给出了可以在目标条件和无向模式下工作的“扩散策略”的第一个实例。

unset unset 3 准备工作 unset unset

我们的目标是设计一个用于视觉导航的控制策略π,该策略将机器人当前和过去的RGB观测作为输入 ,并输出未来动作 的分布。该策略还可以访问目标 的RGB图像,可用于指定导航任务。当提供目标 时,π必须采取行动朝着目标前进,并最终实现目标。在看不见的环境中,目标图像 可能不可用,π必须通过采取安全合理的导航动作(例如,避开障碍物,沿着走廊行走等)来探索环境,同时提供对环境中有效行为的充分覆盖。为了促进长期探索和目标寻求,我们遵循ViKiNG的设置,将 与环境 的拓扑记忆和高级规划器配对,鼓励机器人通过导航到未探索区域来探索环境。

视觉目标条件策略: 为了训练针对视觉输入的目标条件策略,我们遵循了大量基于 Transformer 架构训练大容量策略的前期工作。具体来说,我们使用视觉导航Transformer (ViNT) 策略作为处理机器人的视觉观察 和目标 的骨干。ViNT 使用 EfficientNet-B0 编码器 ψ( ) 独立处理每个观察图像 ,并使用目标融合编码器 对输入进行标记。使用多头注意层 处理这些标记以获得一系列上下文向量,这些向量连接起来以获得最终的上下文向量 。然后使用上下文向量预测未来动作 和观察与目标 之间的时间距离,其中 是全连接层。该策略使用监督学习进行训练,使用最大似然目标,对应于回归到地面实况动作和时间距离。虽然 ViNT 在目标条件导航中表现出最先进的性能,但它无法执行无向探索,并且需要外部子目标候选机制。NoMaD 扩展了 ViNT,以支持目标条件和无向导航。

图 2:模型架构。NoMaD 使用两个 EfficientNet 编码器 ψ、ϕ 来生成 Transformer 解码器的输入标记。我们使用目标 掩码 通过观察上下文 ct 来联合推理与任务无关和面向任务的行为。我们使用以上下文 ct 为条件的动作扩散来获得一种高度表达的策略,该策略既可以以目标条件的方式使用,也可以以无方向的方式使用。

使用拓扑图进行探索: 虽然目标条件策略可以表现出有用的可供性和防撞行为,但它们可能不足以在需要长期推理的大型环境中导航。为了促进大型环境中的长期探索和目标寻求,我们遵循 ViKiNG 的设置,并将策略与情景记忆 相结合,以机器人在环境中的体验的拓扑图的形式呈现。 由图形结构表示,其中节点对应于机器人在环境中的视觉观察,边对应于两个节点之间的可导航路径,由策略的目标条件距离预测确定。在大型环境中导航时,机器人的视觉观察 可能不足以规划到达目标的长期轨迹。相反,机器人可以使用拓扑图 来规划一系列子目标,引导机器人到达目标。在探索之前未见过的环境时,我们会在线构建 ,同时让机器人在环境中搜索目标。除了无向覆盖探索之外,这个基于图的框架还支持达到高级目标 G 的能力,这些目标可能位于任意远的地方,并指定为 GPS 位置、地图上的位置、语言指令等。在这项工作中,我们专注于基于边界的探索,这测试了 NoMaD 提出各种子目标和搜索未见过的环境的能力。我们在很大程度上遵循了先前工作的设置,将学习到的策略与 NoMaD 交换。

unset unset 4 方法 unset unset

与之前针对目标条件导航和开放式探索使用单独策略的工作不同,我们假设为这两种行为学习一个模型更高效、更具通用性。在两种行为中训练共享策略可让模型学习到比动作 更具表现力的先验,可用于条件推理和无条件推理。在本节中,我们将描述我们提出的 NoMaD 架构,这是一种目标条件扩散策略,可用于目标达成和无向探索。NoMaD 架构有两个关键组件:(i) 基于注意力的目标掩码,它提供了一种灵活的机制来对可选目标图像 进行策略调节(或屏蔽);(ii) 扩散策略,它为机器人可以采取的无碰撞动作提供了富有表现力的先验。图 2 展示了 NoMaD 架构的概览,我们将在下面详细描述每个组件。

A. 目标掩码

为了训练一个用于实现目标和无向探索的共享策略,我们修改了第三部分中描述的 ViNT 架构,引入了一个二元“目标掩码”m,使得 。m 可用于屏蔽目标标记 ,从而阻止策略的目标条件路径。我们通过设置目标掩码 m = 1 来实现掩码注意力,这样 的下游计算就不会关注目标标记。我们通过设置 m = 0 来实现非掩码注意力,这样目标标记与观察标记一起用于 的下游计算。在训练期间,目标掩码 m 以概率 从伯努利分布中采样。我们在训练期间使用固定的 ,对应于实现目标和无向探索对应的训练样本数量相等。在测试时,我们将 m 设置为与所需行为相对应:m = 1 用于无向探索,m = 0 用于达到用户指定的目标图像。我们发现这种简单的掩码策略对于训练实现目标和无向探索的单一策略非常有效。

B. 传播策略

虽然目标掩码提供了一种方便的方式来根据目标图像来调节策略,但由此产生的行为分布(尤其是在未提供目标的情况下)可能非常复杂。例如,在路口,策略可能需要为左转和右转分配高概率,但为可能导致碰撞的任何行为分配低概率。训练单一策略来对行为序列进行这种复杂的多模态分布建模具有挑战性。为了有效地对这种复杂的分布进行建模,我们使用扩散模型来近似条件分布 ,其中 是目标掩码后获得的观察上下文。

图 3:可视化 NoMaD 学习的两个目标图像(绿色、蓝色)的任务无关(黄色)和目标导向路径。NoMaD 预测在没有目标的情况下无碰撞动作的双峰分布,并在对两个不同的目标图像进行调节后捕捉到更窄的分布。

我们从高斯分布中抽取一系列未来动作 ,并进行 K 次去噪迭代,以产生一系列噪声水平不断降低的中间动作序列 ,直到形成所需的无噪声输出 。迭代去噪过程遵循以下方程:

其中,k 是去噪步骤数, 是通过 θ 参数化的噪声预测网络,α、γ 和 σ 是噪声计划的函数。

噪声预测网络 以观察上下文 为条件,它可能包含也可能不包含目标信息,由掩码 m 确定。请注意,我们对条件(而非联合)动作分布进行建模,将 排除在去噪过程的输出之外,从而实现扩散过程和视觉编码器的实时控制和端到端训练。在训练期间,我们通过向真实动作序列添加噪声来训练 。通过均方误差 (MSE) 损失将预测噪声与实际噪声进行比较。

C. 训练细节







请到「今天看啥」查看全文