0. 这篇文章干了啥?
街景地理定位旨在预测给定街景图像的地理位置。街景地理定位在多种应用中具有重要意义,包括社会研究、城市规划和导航。现有的街景地理定位框架主要可以分为两大类:基于检索的方法和基于分类的方法。基于检索的方法涉及在地理标记图像库中识别最相似的图像,并返回相应的地理位置。然而,这些方法依赖于地理标记图像库的多样性和全面性,这在整理过程中可能具有挑战性。相比之下,基于分类的方法将地球表面划分为不同的区域,并将输入图像分配给特定区域。虽然这些方法利用了单个区域内的共享视觉特征,但它们可能会忽略对于地理定位至关重要的有价值的语义信息(如招牌文字)。更重要的是,这些分类方法通常作为黑盒模型运行,缺乏供用户解释的推理能力。
实现具有推理能力的街景地理定位是一个相当大的挑战。本研究引入了一种新范式,该范式有助于对街景图像进行具有推理能力的地理定位。该范式利用大型视觉语言模型(LVLM)处理多模态视觉和文本输入的卓越能力,并结合从各种在线游戏中学习的外部知识来进行推理过程。具体而言,我们引入了可定位性(locatability)的概念,作为量化街景图像中可定位程度的指标。在此基础上,我们设计了一个基于CLIP的视觉-文本配对网络,以匹配大规模的谷歌街景(GSV)图像与来自在线游戏的3000个经过精细推理的文本-图像对,以解决高质量街景数据集缺失的挑战。该过程筛选出了超过70,000张具有地理标签且可定位性高的GSV图像。
接下来,我们构建了一个名为GeoReasoner的LVLM模型,以克服在地理定位中集成推理能力的困难。GeoReasoner的训练过程分为两个阶段:推理调优和位置调优。在第一阶段,我们利用包含人类推理知识的3000个经过推理的文本-图像对,使用LoRA对训练好的LVLM模型进行微调,以适应推理任务。在第二阶段,我们利用精心挑选的70,000张高可定位性GSV图像数据集,对LVLM模型进行进一步微调,这次是在第一阶段的基础上再叠加一个LoRA进行位置调优。我们从国家和城市两个层面对GeoReasoner的地理定位准确性进行了评估(即预测街景所在国家和城市)。结果显示,在国家和城市级别的地理定位中,GeoReasoner在我们的测试数据集上分别比其他对比方法高出25%和38%的准确率,并具备推理能力。值得注意的是,GeoReasoner的表现略优于StreetCILP,而后者是在包含110万张地理标记街景图像的显著更大的数据集上训练的。我们还使用开源基准数据集将GeoReasoner与最先进的地理定位模型进行了比较。结果表明,GeoReasoner仅使用10,000张Flickr图像进行训练就达到了可比较的性能。
下面一起来阅读一下这项工作~
1. 论文信息
标题:GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model
作者:Ling Li, Yu Ye, Bingchuan Jiang, Wei Zeng
机构:香港科技大学、同济大学、战略支援部队信息工程大学
原文链接:https://arxiv.org/abs/2406.18572
代码链接:https://github.com/lingli1996/GeoReasoner
2. 摘要
本工作采用了一种新的范式来解决地理定位问题,即利用大型视觉语言模型(LVLM)并结合人类推理知识。这里的主要挑战在于训练LVLM所需的数据稀缺——现有的街景数据集往往包含大量缺乏视觉线索的低质量图像,并且缺乏任何推理过程。为了解决数据质量问题,我们设计了一个基于CLIP的网络来量化街景图像的可定位程度,从而创建了一个包含高度可定位街景的新数据集。为了增强推理能力,我们整合了从真实地理定位游戏中获得的外部知识,利用人类宝贵的推理能力。这些数据被用于训练GeoReasoner,它经历了专门的推理和位置调整阶段的微调。定性和定量评估表明,GeoReasoner在国家级和城市级地理定位任务上的表现分别比同类LVLM高出25%和38%,同时所需的训练资源也更少,超过了Street-CLIP的性能。数据和代码可在https://github.com/lingli1996/GeoReasoner获取。
3. 效果展示
现有和拟议的地理定位方法中存在不同的范式:基于检索(左上)、基于分类(左下)和基于LVLM(右)。
4. 主要贡献
我们的主要贡献包括:
• 我们提出了一种新的范式,该范式利用大型视觉语言模型(LVLM)和人类推理的外部知识,从街景图像中进行带推理的地理定位。
• 我们引入了可定位性的概念,并设计了一个基于CLIP的网络来量化街景图像中的可定位性程度。
• 我们提出了GeoReasoner,一个大型视觉语言模型,该模型在现有地理定位模型的基础上表现出色,并为推断结果提供了详细的推理过程。
5. 基本原理是啥?
在本研究工作的整个发展过程中,我们观察到不同街景之间的可定位程度存在差异。例如,包含文字招牌或显著地标(如埃菲尔铁塔)的图像很容易定位,而在隧道中拍摄或被墙壁遮挡的图像则往往较难定位。简单地将所有这些街景图像合并以训练LVLM(大型视觉语言模型)并不是最佳方法,因为纳入低质量数据可能会不利地影响LVLM训练的效率为此,我们引入了可定位性这一概念,这是一个量化街景图像可定位程度的指标。然后,我们设计了一个基于CLIP的视觉-文本配对网络,以生成输入街景图像所需的可定位性指标,
图3展示了所提出模型GeoReasoner的架构,该模型基于Qwen-VL。GeoReasoner由三个模块组成:视觉编码器、视觉-语言(VL)适配器和预训练大型语言模型(LLM)。具体来说,视觉编码器模块采用了Vision Transformer(ViT)架构。输入的街景图像被调整到特定分辨率,然后被分割成一系列图像块。为了将图像块精炼成与LLM兼容的序列表示,引入了VL适配器。在VL适配器中,视觉特征序列首先被压缩到固定长度,以解决大量视觉特征序列带来的效率挑战。随后,处理后的视觉特征与LLM通过交叉注意力机制进行集成。之后,压缩后的视觉特征序列和文本序列被传递到预训练LLM模块,该模块作为解码器来生成答案。
6. 实验结果
图4展示了我们的可定位性量化网络对不同街景图像预测的可定位性程度示例。第一行展示了具有显著可定位特征的街景。左图是一个招牌上的韩文,中间图捕捉了瑞士常见的独特新艺术建筑风格,右图展示了印度的一个艺术与设计博物馆。相比之下,底部一行的街景显示了较低的可定位性程度。左图类似隧道,缺乏用于准确定位的额外可识别信息。同样,中间图像被一堵墙遮挡,而右图像则面对着全球常见的植被。
我们还评估了建筑物比例与街景可定位性程度之间的关系。结果如图5所示。随着建筑物比例从0增加到0.2,可定位性度量指标略有增加,但随着建筑物比例的继续增加,该指标却下降了。结果表明,建筑物并不是决定可定位性的唯一因素。随着建筑物比例的增加,街景图像从全景过渡到特写视图,导致信息可用性降低,从而降低了可定位性程度。
我们进行了定量实验,以研究在GeoReasoner中训练位置组件时使用高可定位性GSV图像的重要性。为此,我们准备了多个数据集,这些数据集包含不同比例的高可定位性GSV图像,比例范围从0%(仅包含低可定位性GSV图像)到100%(仅包含高可定位性GSV图像)。为确保公平性,每个实验组都保留了10,000张GSV图像,仅高可定位性图像的比例有所不同。随后,我们针对每个数据集训练了模型,并在随机抽取的1,000张GSV图像上评估了它们在国家和城市级别的地理定位准确性。
实验结果如图6所示。总体而言,结果表明,随着训练数据集中高可定位性GSV图像比例的增加,微调后的位置组件在国家和城市级别的地理定位性能均有所提升。具体而言,对于0%高可定位性GSV图像的数据集,国家和城市级别的地理定位准确率分别为0.63和0.47,而对于100%高可定位性GSV图像的数据集,这两个级别的准确率分别提升至0.72和0.51。值得注意的是,由于训练复杂性,实验仅使用了10,000张GSV图像,而非全部经过筛选的70,000张高可定位性GSV图像。然而,实验结果充分表明,高可定位性GSV图像提供了更多有意义的见解和较少的无关噪声,在地理定位任务中具有极高的价值。
7. 总结 & 未来工作
在本文中,我们提出了一种新的范式,该范式将大型视觉-语言(LVLM)模型与人类推理知识相结合,用于具有推理能力的街景地理定位。我们引入了可定位性的概念,并设计了一个基于CLIP的网络来量化街景图像中的可定位性程度,从而便于选择高质量的数据。我们设计了一个名为GeoReasoner的基于LVLM的模型,该模型利用来自真实地理定位游戏和人类精心策划的高质量数据的外部人类推理知识,以提高具有推理能力的地理定位任务的性能。该模型经历了两个阶段的微调,即推理微调和位置微调。推理微调阶段旨在获取粗粒度地理位置(即国家)与相关定位原因之间的潜在联系。在位置微调阶段,我们利用精心策划的高质量数据进一步细化模型在细粒度地理定位(即城市)学习中的表现。广泛的实验证明,GeoReasoner在定性和定量上都优于之前的模型。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com