专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

我在哪里？一句话进行跨视角全局定位！

计算机视觉工坊 · 公众号 · · 2024-12-29 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Where am I? Cross-View Geo-localization with Natural Language Descriptions

作者：Junyan Ye, Honglin Lin, Leyan Ou, Dairong Chen, Zihao Wang, Conghui He, Weijia Li

机构：Sun Yat-Sen University、Shanghai AI Laboratory、Sensetime Research、Wuhan University

原文链接：https://arxiv.org/abs/2412.17007

代码链接：https://yejy53.github.io/CVG-Text/

1. 导读

跨视图地理定位通过将街景图像与带有地理标签的卫星图像或开放街道地图（OSM）进行匹配来确定其位置。然而，大多数研究都集中在图像到图像的检索上，而较少关注文本引导检索，这对于行人导航和应急响应等应用至关重要。在本文中，我们引入了一项新的任务，即使用自然语言描述的跨视图地理定位，旨在基于场景文本检索相应的卫星图像或OSM数据库。为了支持这项任务，我们构建了CVG-Text数据集，通过从多个城市收集跨视图数据，并采用一种场景文本生成方法，该方法利用大型多模态模型的标注能力来生成具有定位细节的高质量场景文本描述。此外，我们还提出了一种新的基于文本的检索定位方法CrossText2Loc，该方法将召回率提高了10%，并展示了出色的长文本检索能力。在可解释性方面，它不仅提供相似度分数，还给出检索理由。更多信息可访问https://yejy53.github.io/CVG-Text/。

2. 引言

地面图像的准确定位对于多种应用至关重要，包括行人导航、移动机器人定位以及拥挤城区中噪声GPS信号的校正。传统定位方法通常依赖于3D点云定位或使用带有GPS标签的卫星图像的跨视图检索。然而，大多数研究都集中在图像到3D数据或图像到图像的匹配上。最近的研究开始探索一种基于自然语言文本的新型定位方法，这对许多实际应用具有重大意义。

最近的自然语言定位方法，如Text2Pose和Text2Loc，仅限于使用自然语言来识别点云中的单个位置。使用激光雷达或摄影测量技术构建3D地图在全球范围内成本高昂，而且3D地图的存储成本也很高，通常需要昂贵的云基础设施，这阻碍了移动设备上的定位。值得注意的是，尽管基于OSM1地图数据或卫星影像的跨视图检索地理定位范式面向粗粒度定位，但仍能满足大多数任务的需求，并且在覆盖范围和存储成本方面相较于3D数据具有明显优势。因此，本文引入了一项新的跨视图地理定位任务，即探索使用自然语言描述来检索相应的OSM或卫星图像。

为了应对这一挑战，需要一个数据集，该数据集（i）包含基础的跨视图数据，包括街景、OSM和卫星图像，（ii）包含能够模拟人类用户描述街景场景的文本数据，同时提供高质量的场景定位线索。随着大型多模态模型（LMM）的发展，使用LMM进行文本标注似乎是一种有效的解决方案。然而，LMM可能会产生模糊描述或幻觉现象。为了解决这些问题，我们提出了CrossView Geo-localization数据集，即CVG-Text。我们首先收集了来自纽约、布里斯班和东京三个城市的30000多个位置的街景数据。然后，根据地理坐标，我们获得了相应的OSM和卫星图像的配对数据。随后，我们开发了一个渐进式文本描述框架，该框架利用LMM（以GPT-4o[28]为核心进行生成），结合光学字符识别（OCR）和开放世界分割技术，从街景图像中生成高质量的场景描述文本，同时减少模糊描述。

尽管上述构建的文本数据可以提供类似用户描述的街道场景，但与卫星图像或OSM数据相比，它仍然存在显著的领域差异。此外，为了充分捕捉场景的详细信息，生成的文本描述通常较长，往往超出图像文本检索方法的文本编码限制。为了解决这一问题，我们提出了一种新的基于跨视图文本的定位方法CrossText2Loc。该方法包括一个长度扩展的文本编码模块（Extended Embedding），该模块充分利用了数据集中的长且复杂的文本描述。通过对比学习策略，它有效地学习了跨域匹配信息。此外，它还具有一个可解释检索模块（ERM），该模块在检索结果旁边提供自然语言解释。这克服了传统跨视图检索方法仅提供相似度分数、缺乏可解释性且难以做出可靠决策的局限性。我们对主流文本图像检索方法和我们的方法在这一新任务上的性能进行了评估，实验结果表明，我们的CrossText2Loc在召回率指标和可解释性方面具有显著优势。

3. 效果展示

出租车司机依靠乘客的口头指示来确定位置，或者行人在紧急电话中描述自己的位置。但在GPS信号受到干扰的情况下，用户必须使用自然语言描述他们的周围环境，提供各种位置提示来确定他们的位置(上)。为了解决这个问题，我们引入了基于文本的跨视图地理定位任务，该任务基于位置定位(Down)的文本查询检索卫星图像或OSM数据。

4. 主要贡献

我们的主要贡献如下：

• 我们引入并规范化了基于自然语言描述的跨视图地理定位任务，利用场景文本描述来检索相应的OSM或卫星图像进行地理定位。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解。

• 我们提出了CVG-Text数据集，该数据集包含三个城市和30000多个坐标的街景、卫星图像、OSM和文本描述的良好对齐数据。此外，还提出了一种基于LMM的渐进式场景文本生成框架，该框架减少了模糊描述并生成了高质量的场景文本。

• 我们介绍了CrossText2Loc，这是一种新的文本定位方法，擅长处理长文本和具有可解释性。与现有方法相比，它在Top-1召回率上实现了超过10%的提升，同时提供了超越相似度分数的检索推理。

5. 方法

我们介绍了CVG-Text，这是一个多模态跨视图检索定位数据集，旨在评估基于文本的场景定位任务。CVG-Text涵盖了纽约、布里斯班和东京三个城市，包含超过30000个场景数据点。纽约和东京的数据更侧重于城市环境，而布里斯班的数据则偏向郊区场景。每个数据点都包括相应的街景图像、OSM数据、卫星图像和相关场景文本描述。数据集按5:1的比例随机分为训练集和测试集。更多详细信息请参阅补充材料。

文本数据统计概览。图2展示了场景文本的特征统计信息。t-SNE降维可视化表明文本数据的分布相对分散，反映了较高的多样性。来自同一城市的文本呈现出聚类现象，而不同城市的文本则明显可区分，凸显了文本特征的区域差异。这些差异可能与每个城市独特的风格和文化特征有关。文本相似度矩阵显示出低相似性，证明了文本的独立性，这有效地代表了每个独特的场景，并降低了不同文本之间混淆的风险。由多模态大型模型GPT-4o生成的文本平均长度超过126个标记，在100和145个标记处有两个明显的峰值，分别对应于单视图和全景图像。与Text2Pose和GeoText-1652等数据集相比，我们的数据在词汇丰富度、标记长度和熵方面表现出更优异的性能，反映了更高的文本质量。

与现有数据集的比较。表1详细比较了CVG-Text与现有数据集。与常见的跨视图检索数据集（如CVUSA[38]和VIGOR[53]）相比，CVG-Text包含了对齐的文本模态信息，能够对基于文本的场景定位任务进行评估，并对跨视图检索进行可解释性分析。此外，CVG-Text在数据完整性方面表现出色，涵盖了全景街景、单视角街景、航拍图像和OSM数据。

与主要用于无人机导航的GeoText-1652[9]数据集相比，该数据集的文本描述直接来源于无人机图像，并用于无人机图像检索。然而，我们的任务专注于满足行人、游客和其他用户的需求，文本来源于街景图像，并用于跨域检索卫星或OSM图像。两者在任务目标和文本来源上存在显著差异。此外，与OSM和卫星图像相比，无人机图像的覆盖范围更为有限，难以实现大规模地理定位。

6. 实验结果

7. 总结

在这项工作中，我们探索了使用自然语言描述进行跨视图地理定位的任务，并介绍了CVG-Text数据集，其中包括对齐良好的街道视图、卫星图像、OSM图像和文本描述。我们还提出了CrossText2Loc文本检索定位方法，该方法在处理长文本检索和该任务的解释性方面表现出色。这项工作代表了基于自然语言的定位领域的另一个进步，也为跨视图定位引入了新的应用场景，鼓励后续研究人员进行进一步探索和创新。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。