点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
来源:具身智能之心
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门独家秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
GOAT解决了什么?
在像家庭和仓库这样的部署场景中,人们期望移动机器人能够自主导航较长时间,并以人类操作员直观理解的方式无缝执行任务。本文提出了GOAT(GO To Any Thing),这是一种能够满足这些要求的通用导航系统,具有三个关键特性:a) 多模态:能够处理通过类别标签、目标图像和语言描述指定的目标;b) 终身学习:能够从相同环境中的过去经验中获益;c) 平台无关:可以快速部署在具有不同结构的机器人上。GOAT的实现得益于模块化的系统设计和不断增强的实例感知语义记忆,该记忆不仅跟踪来自不同视角的物体外观,还包括类别级别的语义。这使得GOAT能够区分同类别的不同实例,从而实现通过图像和语言描述指定的目标导航。
在超过90小时的实验比较中,本文在9个不同的家庭环境中测试了GOAT系统,这些环境包含了200多个不同的物体实例,共设定了675个目标。结果显示,GOAT实现了83%的总体成功率,较之前的方法和消融实验提高了32%。随着在环境中的经验积累,GOAT的性能显著提升,从初始目标的60%成功率提高到探索后的90%。此外,本文还证明了GOAT可以轻松应用于下游任务,如抓取与放置以及社交导航。
原标题: GOAT: GO to Any Thing
论文链接:https://arxiv.org/pdf/2311.06430
项目链接:https://theophilegervet.github.io/projects/goat/
作者单位:伊利诺伊大学 卡内基梅隆大学 乔治亚理工学院 加州大学伯克利分校 Meta AI Research Mistral AI
GOAT的设计
自从动物能够移动以来,导航到目标位置(如食物、配偶和巢穴)就一直是动物和人类行为的基本方面。导航的科学研究是一个非常跨学科的领域,来自动物行为学、动物学、心理学、神经科学和机器人学的研究人员都对此作出了贡献。本文提出了一种受动物和人类导航重要发现启发的移动机器人系统。
认知地图。许多动物在其环境中维持内部空间表征。关于这种地图的性质有激烈的争论——它是欧几里得意义上的度量地图还是仅仅是拓扑地图?在获得诺贝尔奖的研究中,已经在海马体中发现了认知地图的神经相关性。这表明,仅靠反应式、无记忆的导航系统对于机器人技术是不足够的。
这种内部空间表征是如何获得的?从人类研究来看,有人认为这些表征是通过“基于路径”的知识建立起来的。在日常或其他情景活动中,我们学习路径的结构——起点、终点、路径点等。随着时间的推移,不同经验中的特征被整合成单一的布局表征,即“地图”。对于移动机器人来说,这激发了一种“终身学习”的版本——随着机器人进行主动搜索和探索,不断改进其内部空间表征。
导航是否完全由位置的几何配置驱动?并非如此,地标的视觉外观在人类和动物导航中起着重要作用。这表明需要为移动机器人的空间环境维持丰富的多模态表征。
图1:GOAT(GO to Any Thing)任务。GOAT任务要求终身学习,即利用在相同环境中的过去经验,实现多模态导航。机器人必须能够到达以任何方式指定的任意目标物体,并记住物体的位置以便能够返回到这些位置。
让我们具体一点。假设一个机器人在如图1所示的未知环境中启动,并被要求找到一个餐桌的图像(目标1)。导航到这个目标需要识别出图像中显示的是餐桌,并具有对室内空间的语义理解,以便高效地探索家庭环境(例如,餐桌不会出现在浴室中)。接下来,假设机器人被要求“去沙发旁的盆栽植物”(目标2)。这需要将文本指令在物理空间中进行视觉定位。下一条指令是“去水槽(Go to a SINK)”(目标3),大写字母强调任何类别为SINK的物体都是有效目标。在此示例中,机器人在第一个任务中已经在房子里见过一个水槽,因此它应该记住其位置,并能够规划路径以高效到达。这要求机器人构建、维护和更新环境中物体的终身记忆,包括它们的视觉和语言属性及其最新位置。面对任何新的多模态目标,机器人还应该能够查询记忆,以确定目标物体是否已存在于记忆中,或者需要进一步探索。除了具备这些多模态感知、探索、终身记忆和目标定位的能力外,机器人还需要有效的规划和控制,以在避免障碍物的同时到达目标。
本文介绍了GO To Any Thing (GOAT),这是一种具有三个关键特性的通用导航系统:a) 多模态:能够处理通过类别标签、目标图像和语言描述指定的目标;b) 终身学习:通过随时间更新的物体实例地图(而不是隐式存储在机器学习模型参数中)从相同环境中的过去经验中获益;c) 平台无关:可以无缝部署在不同结构的机器人上——本文将GOAT部署在四足机器人和轮式机器人上。GOAT的实现得益于实例感知语义记忆的设计,该记忆不仅跟踪来自不同视角的物体外观,还包括类别级别的语义。这使得GOAT能够区分同类别的不同实例,从而实现通过图像和细粒度语言描述指定的目标导航。随着代理在环境中花费更多时间,这种记忆会不断增强,从而提高达到目标的效率。
在超过90小时的实验比较中,本文在9个不同的家庭环境中测试了GOAT系统,这些环境包含了200多个不同的物体实例,共设定了675个目标。结果显示,GOAT实现了83%的总体成功率,较之前的方法和消融实验提高了32%。随着在环境中的经验积累,GOAT的性能显著提升,从初始目标的60%成功率提高到环境完全探索后的90%。此外,本文证明了GOAT作为一种通用导航原语,可以轻松应用于下游任务,如抓取与放置以及社交导航。GOAT的性能部分归功于系统的模块化特性:它在需要的组件中利用机器学习(如目标检测、图像/语言匹配),同时仍然利用强大的传统方法(如地图构建和规划)。模块化设计也使得GOAT能够轻松部署在不同的机器人结构和下游应用中,因为各个组件可以轻松调整或引入新的组件。
虽然导航领域有大量研究,但大多数仅在模拟环境中进行评估,或开发专门的解决方案来处理这些任务的子集。经典的机器人研究使用几何推理来解决几何目标的导航问题。随着图像语义理解的进步,研究人员开始使用语义推理来提高在新环境中探索的效率,并处理通过类别、图像和语言指令指定的语义目标。然而,这些方法大多是a) 专用于单一任务(即单模态),b) 每次仅处理单个目标(即不是终身学习),c) 仅在模拟环境(或初级的真实环境)中进行评估。GOAT在这三个方面都有所进步,并在现实世界中以终身学习的方式处理多个目标规范。这超越了过去仅在某一方面创新的工作,例如,过去的研究处理了一系列目标,但目标仅限于物体目标或图像目标,且仅在模拟中进行,[1]处理灵活的目标规范,但仅展示了每次任务一个目标的模拟结果,[19]展示了真实世界的结果,但每次任务仅达到一个物体目标。
受动物和人类导航的启发,GOAT维护了一张环境地图以及视觉地标——即物体实例的自我中心视图,这些都存储在本文新颖的实例感知目标记忆中。为了满足GOAT的多模态需求,这种记忆可以通过图像和自然语言进行查询。本文通过存储视觉地标的原始图像(而不是特征)来实现这一点,从而可以独立利用图像-图像匹配和图像-语言匹配的最新进展。本文使用Contrastive Language-Image Pretraining (CLIP)
进行图像-语言匹配,并使用SuperGlue
进行图像-图像匹配。
CLIP继承了将文本与图像或图像区域相关联的悠久历史,并推动了语言条件下开放词汇目标检测器的发展。
CLIP本身或从CLIP派生的目标检测器最近已被用于机器人任务,例如目标搜索、移动操作和桌面操作。
类似地,SuperGlue继承了几何图像匹配的悠久历史,结合最近的基于学习的方法在某些情况下提高了性能。
最近的研究开始在具体现实环境中评估这些方法,其中机器人必须导航到世界中的图像或与特定物体实例对应的图像。
GOAT的记忆表示继承了过去40年机器人学中场景表示的悠久历史,包括占用地图(结合几何、显式语义或隐式语义)、拓扑表示以及神经特征场。许多研究开始使用预训练的视觉-语言特征,如CLIP,并将其直接投射到3D空间,或在隐式神经场中捕捉这些特征。参数化表示将环境总结为低维抽象特征,而非参数化表示则将图像集合本身视为一种表示。本文的工作结合了这两者的特点。本文构建了一个用于导航到物体的语义地图,同时也存储与发现的物体(地标)相关联的原始图像。
图7:(A) GOAT系统概览。感知系统检测并定位物体实例,全局策略根据机器人是应该探索还是到达已在记忆中的目标输出高层导航命令,本地策略执行这些命令。(B) 感知和记忆更新。感知系统处理RGB-D输入以填充深度,分割物体实例,将其投影到俯视语义地图中,并将视图存储在目标实例记忆中。
图8:(A) 目标实例记忆。本文根据物体在语义地图中的位置及其类别,将物体检测结果及其观察到的图像视图聚类为实例。(B) 全局策略。当指定一个新目标时,全局策略首先尝试在目标实例记忆中定位该目标。如果未能定位到实例,则输出一个探索目标。
实验结果分析
图2:“实地”评估。本文在9个视觉上多样化的家庭中部署了GOAT导航策略,并评估其在作为类别、图像或语言目标的200多个不同物体实例上的表现。GOAT具有平台无关性:本文将其部署在Boston Dynamics Spot和Hello Robot Stretch上。
图3:基于连续目标数量的导航性能。GOAT的性能随着在环境中经验的增加而提高:从第一个目标的60%成功率(0.2 SPL)提升到经过充分探索后的第5至第10个目标的90%成功率(0.8 SPL)。相反,没有记忆功能的GOAT在经验中没有显示出改善,而COW有所获益但在较低的性能水平上趋于平稳。
图4:在线评估中的定性轨迹。本文在相同环境中对比了在同一序列的5个目标(顶部)上的不同方法。GOAT定位了所有目标并高效导航(SPL为0.78)。CLIP on Wheels仅定位了5个目标中的1个,展示了GOAT的目标实例记忆在匹配方面的优越性。没有记忆功能的GOAT能够定位5个目标中的4个,但由于每次目标都需要重新探索环境,其SPL仅为0.40。详情参见第2.1节。
表1:在未见过的自然家居环境中的导航性能。本文将GOAT与三个基线进行比较,测试在9个未见过的家中,每个家有10个实验,每个实验包含5-10个图像、语言或类别目标物体实例。比较指标为成功率和SPL [0],即每个目标实例的路径效率。
图5:A - 应用:重新布置。GOAT策略搜索并拾取一个玩具,然后将其放置在床上。B - 应用:社交导航。GOAT策略在避开一个人的情况下找到冰箱,然后跟随该人。
图6:匹配过程中观察到的趋势的定性示例。(A) 在探索过程中使用阈值匹配可能导致假阴性,这在探索后可能会变为正确匹配。(B) 图像-图像的SuperGLUE匹配比图像-语言的CLIP匹配更可靠。(C) 在同一类别内的匹配比跨类别的匹配效果更好。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「