专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

中山大学 & 上海 AI Lab 提出 EP-BEV | 全景BEV联合检索网络,推动跨视角图像地理定位技术 !

智驾实验室  · 公众号  · 科技自媒体  · 2024-08-21 08:00

主要观点总结

本文介绍了一种跨视角图像地理定位方法,通过全景BEV联合检索网络进行街景图像的地理定位。该方法通过利用地面平面假设和几何关系,将街景全景图像转换为BEV视图,从而减少了与卫星图像之间的差距。作者引入了一个新的数据集CVGlobal,以更接近实际场景的跨视角数据集,并进行了广泛的实验评估。

关键观点总结

关键观点1: 全景BEV联合检索网络

作者提出了一种新的跨视角图像地理定位方法,通过全景BEV联合检索网络进行街景图像的检索。该方法结合了街道视角全景图和BEV图像进行卫星检索,克服了BEV表示的感知范围有限问题,全面感知全球布局和局部细节。

关键观点2: CVGlobal数据集的引入

作者引入了一个新的跨视角数据集CVGlobal,该数据集更接近实际应用场景,包含了跨区域、跨时间以及街道视图到地图检索的任务,旨在全面评估算法性能。

关键观点3: 显式全景BEV变换

作者提出了一种显式的全景BEV变换方法,通过几何关系和地面平面假设,将街景全景图像转换为BEV视图,无需进行内部或深度估计,有效地减小了街景和卫星视角之间的差距。

关键观点4: 双分支检索结构

作者采用了双路径结构来实现街道视图全景图像和BEV的协同检索任务。街道视图检索分支直接使用原始街道视图输入,覆盖更广泛的观察范围,而BEV检索分支则使用转换后的EP-BEV输入,强调街道视图附近的多视图信息。

关键观点5: 广泛的实验评估

作者在多个数据集上进行了实验评估,包括CVUSA、CVACT、VIGOR以及作者自己的CVGlobal数据集。实验结果表明,作者的方法在跨视角图像检索任务上取得了显著的效果。


正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

跨视角定位通过将街景图像与地理定位的卫星数据库匹配来确定街景图像的地理位置。由于视角和几何差异的剧烈变化,出现了许多挑战。在这篇论文中,作者提出了一种新的跨视角图像地理定位方法,即全景BEV联合检索网络(Panorama-BEV Co-Retrieval Network)。

具体来说,通过利用地面平面假设和几何关系,作者将街景全景图像转换为BEV视图,从而减少了街景全景图像与卫星图像之间的差距。在现有的街景全景图像和卫星图像检索中,作者引入了BEV和卫星图像检索分支进行协同检索。通过保留原始街景检索分支,作者克服了BEV表示的感知范围有限问题。作者的网络使街景图像捕捉位置的全球布局和局部细节得到全面的感知。此外,作者引入了CVGlobal,这是一个更接近实际场景的跨视角数据集。该数据集采用更真实的工作设置,街景方向与卫星图像对齐。CVGlobal还包括跨区域、跨时间以及街景到地图检索测试,可以对算法性能进行全面评估。在作者的方法中,在诸如CVUSA,CVACT,VIGOR和作者新引入的CVGlobal等常用跨视角数据集上的多个测试中优于当前最先进的算法。

代码和数据集可在https://github.com/yejy53/EP-BEV中找到。

1 Introduction

跨视图检索地理定位涉及将地面的图像与带有地理参考的卫星图像在数据库中匹配,以确定它们的地理位置[5, 8, 15, 6, 3, 33, 14, 20],如图1(a)所示。跨视图检索面临由于卫星和地面影像视角的巨大差异所带来的挑战。例如,相对于屋顶的地面视角,卫星视图中的建筑表现出不同的形象。这些视点的形貌和纹理特征差异显著。然而,尽管具有视觉差异,一些元素如图络和农作物可以从地面和卫星视图中观察到,这代表了跨视共享信息[34]。该任务的重点是利用跨视信息有效地对齐两个视角的内容和分布。

当前的跨视图检索方法主要利用深度学习技术,如卷积神经网络(CNN)[26, 5, 2, 19, 24, 17]和Transformer[27, 32, 35]架构,将来自不同视角的图像转换为特征向量。这些向量基于特征空间中的相似性计算进行匹配。然而,由于视角差异,将嵌入在空间域中的特征向量对齐仍然具有挑战性。为了解决这个问题,一些方法使用极坐标变换来减少几何差异[15, 22]。具体而言,卫星视图图像首先被转换为极坐标视图图像,然后与街道视图图像进行匹配,如图1(b)所示。极坐标变换有效地对齐跨视共享信息,如道路方向,实现了显著的性能改进。然而,转换后的极坐标视图图像与地面图像在信息分布上仍存在显著差异。例如,地面图像往往包含一些天空信息,而极坐标转换后的图像包含树顶信息,其形貌发生显著扭曲。

作者观察到,除了将卫星图像转换为街道视角之外,还将街道视角转换为卫星视角也是可行的。作者使用方位关系和地面平面约束将街道视角全景图转换为显式的Bird's Eye View(BEV)图像。相比于极角转换,将街道视角转换为卫星视角更为直观,得到的转换图像更加逼真,并突出了靠近拍摄位置的跨视共享局部信息。另一方面,由于作者的BEV转换不依赖于深度和3D结构估计,转换后的图像在密集城市场景(图中建筑物阻挡)中能表现出有限的可见性和严重的失真。为了解决这个挑战,作者设计了名为Panorama-BEV Co-Retrieval Network的系统,该系统协作利用街道视角全景图和BEV图像进行卫星图像检索。作者将保留原来的街道视角全景图到卫星检索分支,以扩大感知范围并捕捉更多的全球布局特征,而BEV到卫星检索分支则侧重于 street view 位置附近的细节。

当前的交叉视角检索研究主要使用如CVUSA[26],CVACT [8]和VIGOR[33]等数据集,CVUSA在top-1召回率上达到了98%,证明了交叉视角方法的有效性。然而,这些数据集与实际应用之间仍存在差距。首先,现有的数据集主要针对一个国家,限制了在不同全球场景下的评估。其次,街道视角缺乏元数据的挑战超过了未知位置,包括相机方向的不确定性以及拍摄时间的不确定性。目前,尚无带有不确定方向的街道视角数据集;大多数方法通过旋转固定方向街道视角图像来模拟随机捕捉[17, 32]。此外,尚无跨时间检索任务评估,现有卫星图像是否能准确定位在未知时间捕获的街道视角仍存在问题。另外,没有尝试使用地图数据而非卫星数据现有的数据集中。地图数据相对于卫星数据具有优势,如更易于访问和存储。为了应对这些挑战,作者引入了一个名为CVGlobal的全球交叉视角检索数据集。该数据集包括跨区域、跨时间以及街道视角到地图检索测试,旨在对算法性能进行全面评估。

作者的主要贡献如下:

  1. 作者提出了一种新颖的转换方法,用于跨视图检索任务,明确地将街景全景转换为BEV视图,有效地弥合了街景和卫星视角之间的差距。通过设计Panoramag-BEV Co-Retrieval Network,作者方便地与街景全景和BEV图像协同卫星检索,超越了BEV的感知极限,全面感知全球布局和局部细节。
  2. 作者引入了CVGlobal,这是一个接近实际应用场景的全球跨视图检索数据集。该数据集具有不可确定的街景视角,支持跨区域、跨时间以及街景到映射检索任务的评估。

作者的方法在多个数据集上进行了广泛评估,并已超越了当前最先进的方法。在具有挑战性的跨区域任务,如VIGOR-cross和从CVUSA到CVACT,作者的方法优化了Top-1召回率,证明了其泛化能力。

2 Related Work

本段内容为相关工作的介绍。首先,作者将探讨AI领域的现状,包括目前的研究热点、主要进展以及存在的主要问题。

接着,作者将分析现有技术在这方面的优势与不足,并在此基础上提出改进措施。

最后,作者将总结本文的研究目标与方法,并对论文结构进行简要概述。

Cross-view retrieval

跨视图图像检索方法使用地面图像作为 Query ,卫星图像数据库中的所有 Patch 作为参考进行地理定位。早期的检索尝试依靠手动特征在两个域之间匹配图像[1, 22]。随着深度学习算法的出现,方法发展演变为将图像嵌入全球特征描述子中进行检索。Deuser等人[3]采用infoNCE损失与全局硬负采样相结合,实现了最先进的结果。为了减轻卫星图片和地面图片之间的明显差异,许多研究通过极坐标转换算法[15, 18, 27, 32]改进了检索精度。极坐标转换,它依赖于转换后的方向关系直接转换,在将卫星图片转换为街景时引入了某些扭曲。Toker等人[22]利用GANs[4]学习消除这些扭曲。

目前算法在top-5和top-10召回率上表现良好,但在直接将街景和卫星图片进行嵌入时,在密集场景中识别相似图片的挑战使top-1召回率较低。作者通过采用转换后的BEV图像进行检索,同时结合靠近拍摄地点的更多特征来提高区分度。

BEV transformation

将地面图像转换为鸟瞰视角(BEV)表示是许多任务的关键方法,如自主驾驶和定位。然而,基于BEV的方法当前需要摄像机的内部和外部参数。OrienterNet [13]通过估计摄像机参数和场景深度来实现精确的定位,使用已知的近似GPS位置。Boosting [16]探索了基于几何方法的特征 Level 投影,但将数据库中的数十万卫星图像转换为BEV特征表示,而不是高效的向量表示,仍然是一个重大的成本问题,对于检索任务来说。Wang等人[25]针对跨视角定位任务进行了显式图像转换,取得了良好的结果。然而,这需要知道与地面图像对应的卫星图像,而在检索之后才会是后续任务。

作者的显式全景BEV转换利用几何关系和地面平面假设,从一个预定义的BEV平面开始,逆向计算全景的索引,实现明确的全景BEV转换,无需进行内部或深度估计。与许多具有较高计算成本的定位方法相比,作者的方法将BEV转换为图像表示,支持直接特征嵌入和高效搜索。

Cross-view Datasets

已有几个跨视图地理位置数据集,包括CVUSA [26],CVACT [8],Vo[23],Universities-1652 [31],以及VIGOR [33]。CVUSA数据集包含3,553,32对从美国的地面到卫星图像,而CVACT具有类似的训练/验证比例和更大的测试集,即CVACT-test。CVUSA和CVACT是最常用的跨视图检索数据集,采用了一对一检索设置。VIGOR数据集包括来自多个城市的数据,并评估了模型在不同地理区域之间的可移植性。在这个数据集中,街道全景图和卫星图像并没有中心对齐。

多个街道视图图像覆盖了相同的卫星图像区域,不同卫星图像之间的重叠区域。Vo的研究收集了11个美国城市的配对图像,将街道视图与Google Maps卫星照片相结合。Universities-1652通过将无人机图像集成到街道和卫星图像以外的数据集,扩展了数据集。

图2:跨视图检索数据集CVGlobal涵盖了世界各地各种风格的城市的数据,红线表示训练数据,蓝线表示区域测试数据(a)。由于街道视图由车载相机捕获,它们通常以道路为中心,并且方向并非固定(b)。此外,CVGlobal引入了新的任务,如跨时间评估(c)和街道视图映射评估(d)。

现有的跨视图数据集为跨视图检索算法在多个维度和任务上提供了全面的评估。然而,现有的数据集仍然不能满足实际应用场景的需求。这些问题包括需要来自世界各地更丰富的数据,不同的街道视图方向,在不同时间考虑街道视图图像检索,或使用地图数据代替卫星图像进行检索。为了解决这些问题,作者引入了CVGlobal,这是一个全球跨视图检索数据集。它具有固定方向无关的街道视图和跨区域、跨时间、街道视图映射至地图的检索测试,旨在全面评估算法性能。

3 数据集

Dataset collection

作者在2023年使用Google Street View Download 3601从全球七个城市下载了134,233张街道图像,包括慕尼黑、多伦多、新加坡、圣保罗、布里斯班、开普敦和约翰内斯堡,图像之间的平均距离为50米。此外,收集了布里斯班在2013年、2016年和2019年的街道视图,以评估算法的跨时间检索能力。使用Google Maps Static API2,根据街道视图的经纬度获取相应的卫星图像和地图数据。卫星图像的大小为512×512,覆盖的空间范围约为70米×70米。地图数据和卫星图像具有相同的覆盖区域和分辨率。

数据集对比

表1展示了作者的数据集与先前基准的比较,表明作者的数据集 closer to real-world scenarios with more potential application 。覆盖具有多种风格的城市进行有效评估,算法在不同场景下的鲁棒性。此外,街道视图的方向不是固定的。数据集还包含布里斯班多个年份的街道视图数据,用于评估跨时间检索任务。作者使用过去几年的街道视图数据作为 Query ,当前的卫星影像作为参考。检索不同时间周期的影像是一项新的尝试。此外,作者收集了与卫星影像对齐的地图数据切片,为街道视图到地图数据切片的检索任务,以探求其在跨视图检索中的实用价值。作者使用街道视图图像作为 Query ,将地图数据切片空间像素化作为参考。与高分辨率卫星图像的高捕捉和存储成本相比,地图数据更容易获取和存储。然而,地图数据缺少卫星视图中的纹理信息,只保留部分形状信息。特别在一些不发达国家,那里统计数据稀疏且更新缓慢,地图数据包含几乎无用的信息,这给任务带来了挑战。

Evaluation schemes

作者选择了慕尼黑、多伦多、新加坡、圣保罗和布里斯班的2023年的街道视图卫星数据作为作者的训练集。类似于CVUSA,作者采用了与训练集相同地区的数据随机划分为验证集。为了应对实际应用场景,作者设计了许多实验评估方案:

**跨区域 Query **。作者的区域 Query 包括两种类型:一是训练城市的不同区域,如图2中的蓝色区域所示;二是以非洲的开普敦和约翰内斯堡为测试集,增加了任务的难度。在测试过程中, Query 图像对应的卫星图像数据库仅包含区域测试集。

**跨时间 Query **。如前所述,作者的模型包括2023年布里斯班的训练数据,然后测试其跨时间性能。作者使用2013年、2016年和2019年布里斯班的街道视图图像作为 Query ,并与2023年在对应位置的卫星图像数据库进行对比,以调查算法在不同年份的表现。作者还对这些三年的数据作为输入,研究算法的性能变化。

街道视图到地图检索 。作者将相应的卫星图像替换为地图数据进行再训练和测试。作者采用了与卫星图像一致的评估方法,以探索地图数据的应用潜力。

4 Methods

Overview

在跨视图检索任务中,作者的目标是基于输入街道视图全景图 Query 的最相似卫星图像在数据库中确定街景数据的地理定位,从而实现街景数据的定位。此任务的主要挑战在于街景图像和卫星图像之间的显著视差角度差异。作者通过使用显式的视角全景BEV变换来弥合两者之间的差距,突出跨视图信息。此外,为了克服BEV的忠实度映射的观察范围有限,作者还额外使用了街道视图全景分支,以便访问更广泛的全球观测。

如图3所示,本文介绍了一种新颖的跨视图检索方法:全景BEV联合检索网络。在BEV分支中,作者通过EP-BEV变换将街道视图图像转换为卫星视图进行检索(见第4.2节)。同时,街道视图全景分支直接使用全景图像进行卫星图像的搜索。作者通过同时利用街道视图全景和BEV图像实现协作检索(见第4.3节)。作者对街道视图和BEV视图分支分别使用相同的对比图像检索目标进行训练。在测试时,网络将同时应用两个分支来检索给定街道视图 Query 的匹配图像,最后的决策将通过合并两个分支的相似度得分来确定。

Explicit panoramic BEV transformation

传统鸟瞰视图(BEV)变换过程依赖于深度信息的准确估算以及摄像机参数的精确估计。相比之下,作者提出的方法利用基于地面平面的几何反投影过程,直接计算全景BEV平面上的对应点的位置(如图4所示)。

鉴于作者的目标是将街道视图图像转换为与卫星图像空间上对齐的BEV视图,作者首先定义一个与卫星视角平行的预定的BEV平面(如图4(a)所示),假设摄像机位于该平面中心。接下来,利用该平面的网格关系i,j,作者可以确定所需的映射点P(x,y,z=0)的坐标(见公式1)。通过设置摄像机高度为H,并将摄像机定位到Cam(0,0,H),作者可以建立空间坐标系(如图4(b)所示)。利用几何关系,作者可以计算相应的俯仰角θ和方位角φ(见公式2)。由于全景图像的等角圆柱投影特性,作者可以使用θ和φ计算各自的行和列数v,u(见公式3)。通过映射i,j和v,u之间的索引关系,作者可以实现从街道视图视角到BEV视角的图像变换。补充材料中可以找到更多信息。

在公式中,y和x表示三维空间的坐标,该坐标是通过BEV平面的行数i和列数j计算的,BEV平面的边缘长度为l,其分辨率是r。摄像机高度设为H,俯仰角θ是指摄像机到点P的连线与摄像机平面的夹角,方位角φ是相对于x轴正方向的角。v和u分别是全景图像的行和列数,而h和w分别是全景图像的高度和宽度。

通过显式全景BEV变换,作者将街道视图图像投影到鸟瞰视角,无需深度估计或摄像机参数。虽然转换后的图像失去了与高物体(如建筑立面)的信息,但这种信息具有地面视角的独特性而无法从卫星视图中获得。显式全景BEV变换有效地减小了两个域之间的对应关系差距,突显了在卫星和街道视图上都可见的物体信息。

Dual-branch cross-view image retrieval

作者的方法采用双路径结构来实现街道视图全景图像和BEV的协同检索(共检索)任务。对于街道视图检索分支,作者通过编码器将街道图像和卫星图像嵌入为特征向量,并使用InfoNCE损失







请到「今天看啥」查看全文