0. 这篇文章干了啥?
视觉位置识别(VPR),即基于视觉输入准确识别先前访问过的位置的任务,是机器人学中长期存在的挑战。先前的方法通常将VPR视为视觉表征学习问题,重点关注提高视觉特征对光照、天气和瞬时物体等无关变化的鲁棒性。受大型语言模型(LLMs)强大推理能力的启发,我们探索了LLMs如何增强VPR性能。直观上,人类经常结合视觉输入和口头描述来识别当前位置。想象一个如图1所示的Bob和Alice的场景。Bob试图找到Alice,并需要使用Alice的口头描述来验证他的位置:“麦当劳和星巴克在不同的两边。”Alice没有提供导航指令,只是描述了她的周围环境,以便Bob识别正确的位置,这与VPR任务定义相符。Bob将自己的视觉观察与Alice的线索进行比较,并推理位置的正确性:不匹配的商店位置表明他处于错误的位置,而匹配的观察则确认他处于正确的位置。基于上述示例,将语言融入VPR似乎是直观的。然而,关于LLMs如何以及能在多大程度上提高位置识别性能,仍是一个待探索的问题。视觉和语言展现出不同的特性。
视觉观察提供了丰富的空间细节,包括几何和光度线索。相比之下,语言提供了抽象信息,有助于空间推理,如识别地标和理解环境内的上下文关系。为了利用这两种模态的优势,我们提出了一种从视觉到语言(从粗到细)的框架,其中基于视觉的检索首先生成多个候选位置,随后基于语言的推理进行更精细的选择。更具体地说,我们利用现成的视觉基础模型(VFM)DINOv2从RGB输入中提取鲁棒性强的视觉特征。这些鲁棒性强的特征使得粗粒度检索成为可能,提出了多个候选图像。随后,我们利用现成的多模态LLM(大型语言模型)GPT-4V从这些候选图像中进行更精细的选择。然而,不经过特定任务的训练就充分利用多模态LLM的潜力以找到最佳候选仍然是一个挑战。
当被要求匹配两个视觉观测时,人类会来回比较两张图像:他们识别出潜在的匹配地标,仔细检查每一个地标,并寻求上下文线索来得出结论。这暗示了一种先比较后推理的设计,即我们利用多模态LLM来描述每对图像之间的差异,然后利用所有文本描述进行最终推理阶段以确定最佳候选。此外,不经过特定任务的微调,多模态LLM很难识别与VPR(视觉位置识别)相关的细节,如建筑物,以及与VPR无关的细节,如光照,而人类知识可以很容易地做到这一点。因此,我们通过VPR特定的提示将人类知识注入多模态LLM中。因此,我们构建了一个VPR系统,该系统仅使用两个现成的基础模型,没有使用以前VPR方法中使用的任何额外监督训练。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Tell Me Where You Are: Multimodal LLMs Meet Place Recognition
作者:Zonglin Lyu, Juexiao Zhang, Mingxuan Lu, Yiming Li, Chen Feng
机构:纽约大学
原文链接:https://arxiv.org/abs/2406.17520
代码链接:https://github.com/ai4ce/LLM4VPR
官方主页:https://ai4ce.github.io/LLM4VPR/
2. 摘要
大型语言模型(LLMs)在机器人领域展现出了多种有前景的能力,包括长期规划和常识推理。然而,它们在地点识别方面的性能仍未得到充分的探索。在这项工作中,我们将多模态大型语言模型(MLLMs)引入到了视觉地点识别(VPR)中,其中机器人必须利用视觉观测来进行自身定位。我们的核心设计是利用基于视觉的检索来提出几个候选地点,然后利用基于语言的推理来仔细检查每个候选地点以做出最终决策。具体来说,我们利用现成的视觉基础模型(VFMs)产生的鲁棒视觉特征来获取几个候选地点。然后,我们提示一个MLLM以成对的方式描述当前观测与每个候选地点之间的差异,并根据这些描述来推理出最佳候选地点。我们在三个数据集上的结果表明,将VFMs的通用视觉特征与MLLMs的推理能力相结合,已经为地点识别提供了一个有效的解决方案,而无需任何针对VPR的特定监督训练。我们相信,我们的工作可以为将基础模型(即VFMs、LLMs和MLLMs)应用于设计以提高移动机器人的定位和导航能力提供新的可能性。
3. 效果展示
视觉和语言与位置识别相遇。爱丽丝给鲍勃口头描述了她周围的环境。Bob将他的视觉观察与Alice的描述(b)-(d)及其准确性的原因进行了比较,确认(d)是正确的地方。
传统VPR方法与我们的LLM-VPR方法的比较。我们基于现成的基础模型构建VPR解决方案,不需要VPR特定的监督培训。同时,我们利用基于语言的推理来进一步提高定位精度。
4. 主要贡献
我们提出了LLM-VPR,一个集成语言和视觉的机器人位置识别框架。我们做出了以下贡献:
(1)我们证明了将来自VFMs的通用视觉特征与MLLMs的推理能力相结合,已经提供了一个有效的VPR解决方案,无需任何针对VPR的特定监督训练。换句话说,我们利用两个基础模型实现了零次学习位置识别。
(2)我们提出了一个从视觉到语言(粗到细)的框架,以充分利用VPR中两种模态的优势。
(3)我们提出了一个先比较后推理的框架,以促进使用MLLMs进行空间推理,实现细粒度的位置识别。
(4)我们在三个数据集上评估了LLM-VPR。定量和定性结果表明,我们的方法优于仅基于视觉的解决方案,并且在没有训练开销的情况下与监督方法性能相当。
5. 基本原理是啥?
我们的方法基于以下见解,将多模态大型语言模型(MLLMs)引入视觉位置识别(VPR):
• 视觉和语言展现出不同但互补的属性。视觉提供了丰富的细节,如几何和光度线索,而语言则生成了有助于空间推理的概念信息和关系。
• 视觉基础模型提供了高质量的视觉特征,使得粗粒度检索能够有效地过滤掉明显不相关的候选对象。
• 多模态大型语言模型(MLLMs)可以通过比较来提取图像对之间差异的详细描述,并使其地理关系的推理更加复杂。
因此,我们提出了一个视觉到语言(粗到细)的管道,该管道由一个基于视觉的粗粒度检索器和一个视觉语言细化器组成。检索器为给定的查询图像选择前K个候选对象,细化器为每个查询-候选对象对生成文本描述,然后评估所有文本描述以确定查询与每个候选对象之间的相似度排名。整个管道如图3所示。
示例说明。图4提供了一个来自Pittsburgh30K的数据集示例,用于说明我们的方法,其中显示的提示是由于空间限制而简化的版本。完整的提示已包含在附录中。为了确保检索到的图像的最终排名与人类共识一致,我们在重新排名提示中再次强调我们正在执行视觉位置识别(VPR)任务,以及在此任务中重要的是什么,以过滤掉意外生成的与VPR无关的细节。通过生成图像对之间的差异描述并基于这些描述进行相似度排名,我们的方法模拟了人类的“先比较后推理”行为。
6. 实验结果
定量结果如表1所示。我们的视觉-语言细化器取得了与监督基线相当的结果,并始终优于仅视觉的无训练基线。
LLM-VPR在粗粒度检索器上有了很大改进。在百度商城中,店面通常比较容易识别,因为有招牌,这导致视觉-语言细化器的性能令人满意。在Tokyo247中,我们通常可以找到独特的地标来描述以帮助定位查询。然而,在Pittsburgh30K中,存在大量重复和相似的结构,这使得很难用语言描述相似性和差异性。即使在这种情况下,我们的视觉-语言细化器仍然能够提高VPR性能。
LLM-VPR与监督方法相当。在Tokyo247和Pittsburgh30K中,我们的方法在R@1上的性能与最佳监督基线相当,在R@5上优于它们。在百度商城中,我们的方法与重新排序前10个候选项的MixVPR和R2Former相当。在日常场景中,观察到的场景通常可以用语言描述,其中的语义和信息性信息有助于位置识别。
LLM-VPR在购物中心并未达到预期效果。在百度商城中,R2Former以较大幅度重新排序前100名候选者,表现优于LLM-VPR,但在其他两个数据集中,LLM-VPR与R2Former相当。直观上,店面易于描述和识别,我们应该期望LLM-VPR具有更强的性能。然而,购物中心也会带来挑战。可能会有不同位置的相同品牌店铺,这会混淆视觉语言细化器。购物中心中的重复性结构,如装饰物,也会在店面未清晰出现在图像中时引入挑战。此外,当相机观察相同物体时,多模态LLMs通常对相机的位移不敏感。在百度商城中,只有在查询位置10米范围内的候选者才会被认为是正确的,这会放大对相机位移不敏感的负面影响。
多模态大型语言模型(MLLMs)在何时发挥作用
?探究多模态大型语言模型在何时以及为何对视觉位置识别(VPR)任务有所帮助,这是一个有趣的问题。图5中展示了一些例子。总的来说,当存在(1)足够可描述的结构信息,(2)独特的地标,以及(3)多模态大型语言模型能够避免与VPR不相关的项的干扰时,多模态大型语言模型就能发挥作用。在图5(a)的第一行和最后一行中,相机视角包含了足够的结构信息,因此可以通过文字描述结构上的相似性和差异,如纹理、颜色或排列。如果存在独特的地标,如图4和图5(a)的最后两行所示:建筑物或标志,多模态大型语言模型能够识别出地点,即使视角有限(图5(a)中的第二个查询)。英文文本可以帮助多模态大型语言模型,因为它们可以直接比较内容,但如果文本不是英文,多模态大型语言模型则倾向于比较形状和颜色。由于DINOv2的自监督性质,图像的描述符可能会受到与VPR不相关的、靠近相机的项的负面影响。例如,在图5(a)的第一行中,靠近相机的街灯覆盖了部分背景。DINOv2倾向于关注街灯,而在VPR任务中,街灯相比其他背景的重要性较小。多模态大型语言模型可以通过提供文本描述和空间推理来克服这一问题。
多模态大型语言模型(MLLMs)何时会损害性能
?虽然MLLMs很少会损害性能,但以下是一些可能导致MLLMs损害位置识别性能的原因:(1)物品数量众多;(2)MLLMs对查看相同物品时摄像机的位移不敏感。当图像包含大量物品时,如图5(b)的第一行所示,很难确定所有物品的相似性和差异。偶尔,MLLMs会在一些“简单”的示例中失败,因为它对查看相同物品时摄像机的位移不敏感。在图5(b)的第二行中,两张图像都看向了同一家商店(中文文本),但我们可以看到在室内环境中,它们的摄像机位置相对较远。当将这两张图像转换为文本时,很难描述摄像机位置的这种微妙变化,因此MLLMs对距离的变化不敏感。因此,MLLMs可能会损害视觉位置识别(VPR)。
MLLMs何时无法提供帮助
?当查询-候选对包含重复且高度相似的结构时,MLLMs可能无法区分差异,如图5(c)的第一行所示。购物中心包含墙壁和评估器等重复结构。如果没有附近商店的提示,很难区分这两张图像之间的差异。此外,如果视角高度受限且没有任何线索(如标志),类似于图5(c)的最后一行,由于可用的描述性信息有限,MLLMs会遇到困难。
7. 总结 & 未来工作
我们探索了在视觉位置识别(VPR)中较少研究的LLMs领域,这一探索受到了Bob和Alice示例中人类活动的启发。通过将基于视觉的检索集成到提出几个候选位置中,并利用基于语言的推理来检查和确定最佳候选位置,我们开发了LLM-VPR,这是一种无需任何额外监督训练的鲁棒性VPR解决方案。我们的方法与当前监督型SOTA模型取得了相当的结果,并且基于语言的推理被证明能够成功提高仅基于视觉的基准的性能。我们相信,我们的工作为应用和设计基础模型(如VFMs、LLMs和MLLMs)来增强移动机器人的定位和导航提供了新的可能性,从而为更先进和通用的机器人系统铺平了道路。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。