专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

AddressCLIP：赋能视觉语言模型进行全市范围的图像地址定位

FightingCV · 公众号 · · 2025-02-22 09:00

正文

摘要

本研究介绍了一个由社交媒体和新闻摄影学引发的新的问题，称为 图像地址定位 （IAL），其目标是预测拍摄图像的可读文本地址。现有的两阶段方法涉及预测地理坐标并将它们转换为人类可读的地址，这可能导致歧义且资源密集。相反，我们提出了一种名为 AddressCLIP 的端到端框架，以更语义化的方式解决这个问题，该框架包含两个关键要素：i）图像文本对齐，通过对比学习将图像与地址和场景标题对齐；ii）图像地理匹配，根据流形学习来约束图像特征与空间距离。此外，我们还专门针对 IAL 问题从匹兹堡和旧金山构建了三个不同规模的数据集。实验表明，我们的方法在所提出的数据集上取得了令人信服的性能，并且优于视觉语言模型的代表性迁移学习方法。此外，大量的消融实验和可视化结果也证明了所提出方法的有效性。数据集和源代码可在 https://github.com/xsx1001/AddressCLIP 获取。

关键词：

图像地址定位图像文本对齐图像地理匹配视觉语言模型

1 引言

Facebook和Instagram等社交媒体平台上的用户经常使用文本地址标记他们的照片以与当地社区联系，这增加了对预测图像拍摄地点描述性地址信息的 demand。这具有各种实际应用，例如，企业和旅游平台可以使用图像地址提供推荐或组织特定位置的内容。此外，新闻摄影可以通过图像地址快速验证事件的真实性。

为了预测图像的地址，一种合理的方法是利用图像地理定位技术来预测图像中的GPS坐标( i.e .
，即经度和纬度) [51] ，然后进行反向地理编码以查询可读地址。图像地理定位，也称为视觉位置识别，通常被视为图像检索问题，其中地理标记图像的数据库作为查询图像的匹配参考。以前的基于检索的方法 [4, 19, 28, 3, 7] 已显示出显著的性能。然而，在实践中，创建预先收集的地理标记数据库需要大量的劳力和存储资源，而GPS坐标缺乏可读性和语义。此外，从GPS到可读地址的转换通常会出现歧义，并且 Image-GPS-Address 管道并非端到端的。

为了减轻上述问题，在本研究中，我们建议执行 图像地址定位 (IAL)，其中模型的任务是预测给定图像拍摄位置的可读文本地址。我们设计了一种 语义地址分区 策略，以对全市地址进行细粒度分区，符合人类描述地址信息的方式。通过这样做，我们能够以端到端的方式训练模型，并且在推理过程中，无需构建检索数据库，从而大大减少了存储和检索负担。此外，模型的输出地址更贴合人类描述习惯，这为后续的全市场景理解和兴趣点推荐提供了桥梁。图 1 显示了图像地理定位和图像地址定位任务的比较，其中后者侧重于预测人类可读的文本地址信息。

Refer to caption — 图1 : 基于图像的地理定位和地址定位任务的比较。所提出任务的目标是预测给定图像的语义文本地址，而不是数字GPS坐标，而无需检索库。

本研究提出了一种基于视觉语言模型CLIP [39] 的端到端框架AddressCLIP，旨在学习图像和地址之间的匹配关系。我们的方法利用了两个关键要素： 图像-文本对齐 和 图像-地理位置匹配 。首先，我们引入额外的场景标题作为地址文本的补充，从而通过对比学习促进图像和文本地址的对齐。其次，我们提出了一种图像-地理位置匹配机制，使地理位置相近的图像特征更接近，同时分离地理位置相距较远的图像特征。

为了支持图像地址定位任务，我们基于Pitts-250k [4] 和SF-XL数据集 [7] 构建了三个不同大小的IAL数据集：Pitts-IAL (234K)、SF-IAL-Base (184K)和SF-IAL-Large (1.96M)。与原始数据集相比，我们数据集中的每个图像不仅包含其地理坐标，还包含其行政地址。具体来说，我们利用谷歌地图的反向地理编码API为部分图像检索行政地址，并通过地理坐标的最近邻插值获得其余图像的地址。

我们在引入的数据集上评估了所提出的AddressCLIP框架。我们提出的方法在三个IAL数据集上实现了超过80%的Top-1地址定位精度，最值得注意的是在最大的数据集SF-IAL-Large上达到了85.92%的性能。与将CLIP迁移到下游IAL任务的具有挑战性的基线 [53, 52, 29] 相比，我们的AddressCLIP在提出的数据集上取得了3%到6%的改进。此外，定性结果表明图像和文本地址查询在地理空间中具有良好的对齐。最后，我们讨论了所提出的方法优于两阶段“图像-GPS-地址”方法的优势，并探讨了多模态大型语言模型在IAL任务中的应用前景。

我们的贡献总结如下：

•

我们制定了图像地址定位问题，并通过利用图像和地址文本之间的对齐关系，为这个问题引入了AddressCLIP框架。
•

为了更好地对齐图像和地址，设计了两个关键要素，即
图像-标题对齐和图像-地理位置匹配，两者互为补充。
•

我们引入了三个名为Pitts-IAL、SF-IAL-Base和SF-IAL-Large的数据集，以促进对图像地址定位问题的研究。
•

实验表明，我们的方法在提出的IAL数据集上取得了令人信服的性能。提供了大量的消融实验、可视化结果和分析，以展示所提方法的有效性。

2 相关工作

图像地理定位。 图像地理定位，或视觉位置识别，通常被表述为城市尺度的图像检索问题，这需要收集一个地理标记的数据库，其中包含预先计算的局部或全局特征嵌入 [34, 6, 35, 13, 24, 25, 41, 46] 。近年来，深度学习模型 [44, 21, 14] 已被证明在图像特征提取方面表现出色，并辅以聚合或池化层 [4, 27, 9, 17, 38, 16, 55, 33, 3] 。最近的方法通过执行额外的重新排序阶段 [19, 49, 54] ，采用强大的预训练主干网络 [36] 提取图像特征 [28, 22] ，或在大规模位置识别数据集上进行训练 [7, 3, 2, 22] ，实现了令人印象深刻的检索性能。与基于检索的方法不同，基于分类的方法侧重于行星尺度的定位，并将地球划分为不相交的区域进行分类 [47, 50, 43, 37, 12] 。最近，StreetCLIP [18] 和GeoCLIP [10] 都利用视觉语言模型CLIP [39] 结合区域描述或GPS信息，以获得更好的泛化能力。超越图像地理定位，我们提出执行图像地址定位以获得可读的文本地址，而不是没有检索库的数字坐标。这不仅使模型能够直接为给定的图像输出人类可理解的语义地址，而且也为未来更复杂的地理人类-计算机交互铺平了道路。

视觉语言模型中的迁移学习。 将语言监督与视觉数据相结合正引起人们极大的兴趣，其主要目标是使图像和文本对齐并学习共享的嵌入空间。正如 [53] 中所述，视觉语言模型的进步主要归功于三个关键发展：Transformer [48] 、对比表示学习 [11, 20] 和扩展的网络规模训练数据集 [26, 40] 。一个值得注意的例子是 CLIP [39] ，它采用两个通过对比损失训练的编码器网络来对齐图像文本对，从而实现令人印象深刻的零样本性能。将 CLIP 应用于下游任务通常涉及完全微调或线性探测 [15] 。最近，提示学习通过在输入端引入少量可训练的提示符元提供了一种替代方法。可学习提示可以应用于语言分支 [53] 、图像实例 [52] 或两者兼而有之，形成多模态提示 [29] 。完全微调使 CLIP 能够完全适应下游任务的数据分布，而提示学习则增强了 CLIP 的零样本学习能力。由于 IAL 任务和预训练任务之间的领域差异，我们提出的 AddressCLIP 采用精心设计的图像-字幕对齐和图像-地理匹配来将 CLIP 转移到地址定位任务，这优于直接完全微调的方式。

3 问题陈述

在这项研究中，我们关注的是全市范围的图像地址定位问题。全球各地的行政地址层级差异很大，这取决于每个国家的历史、地理、文化和政治制度。以美国为例，我们在图 2 (a)中提供了行政地址及其对应层级的具体说明。由于一个数据集中的图像属于同一个城市，我们的研究区分了街区和街道级别的图像地址。

上述直接划分在实际的全市范围内场景中引入了两个挑战。首先，可变的街道长度可能导致地址定位粗糙，尤其对于延伸数公里的高速公路而言，这会造成明显的长尾分布问题和多样化的内部地址视觉特征，从而阻碍推理过程中的精确定位。其次，在街道交叉口会出现地址歧义，图像可以同等地归属于交叉的街道，因此缺乏清晰且唯一的文本监督信号。为了解决这些问题，我们引入了一种 语义地址划分 策略，用于更细粒度的街道分割，如图 2 (b)所示。通过在交叉口分割街道，我们在街道长度上取得了平衡，这细化了地址定位范围并消除了交叉口歧义，更贴近人类通常描述位置的方式。这样，地址的文本表示形式由主要街道名称（标记为绿色 )和与之相交的一两条街道的名称（标记为 brown )。

正式地， 图像地址本地化 问题定义如下：给定训练数据集 D t r a i n = { ( I i , A i ) } i = 1 M 包含图像对 I i 和地址 A i ，我们的目标是训练视觉模型 ℋ θ 并使用它来预测查询图像的地址， A k Q = ℋ θ ( I k Q ) , ∀ k ∈ [ 1 . . K ] 其中 I k Q ∈ D t e s t 。查询集中的图像 I Q 可以属于与培训集中图像同一城市中的任何候选地址。图。 2 （c）显示了一个示意图，该图可预测给定查询图像的可读文本地址。

4 地址clip

4.1 框架概述

我们将IAL问题作为图像和地址对之间的视觉文本对齐问题。图。 3 描绘了我们方法的框架。在训练过程中，图像和地址的嵌入分别由图像编码器和文本编码器提取，然后通过图像 - 地址对比度学习对齐。引入了附加场景标题，作为补充纯文本信息的地址的补充。场景标题与图像地址共享相同的文本编码器，并且将结果字幕嵌入和图像嵌入组合在一起以进行图像捕获对比度学习。此外，我们采用地理位置信息作为指南，以增加地理上近距离图像特征之间的相似性，同时增加地理上远处图像特征之间的差异。地理空间距离与图像特征相似度之间的匹配是学习得到的。在推理过程中，与查询图像嵌入最相似的地址指示最可能的地址。

4.2 图像-文本对齐

将地址信息直接用作图像-地址对齐学习的文本提示是合理的。然而，地址文本简单且有限。它无法提供关于环境、地标或其他实体的上下文信息，而这些信息对于精确的地址定位至关重要。为了减轻这些问题，我们加入了额外的描述性标题来捕捉视觉场景的细微之处，从而使模型能够更深入地理解在简单的地址标签中经常缺失的上下文元素。通过有效地弥合视觉感知和文本表示之间的差距，这种机制能够实现更准确和上下文感知的预测。

场景描述可以通过人工标注生成，尽管这种方法准确，但成本高昂，并且不容易扩展到大型数据集。得益于视觉语言模型的进步，我们利用预训练的视觉语言模型 [30] 来生成与图像场景对应的语言标题。图 3 (a)的左下角显示了一些示例，其中描述可以包括特定建筑物或独特的街道标志的存在等上下文，这对于区分视觉上相似但地理位置遥远的场所非常重要。这也使模型的学习过程与人类通常交流位置信息的方式相一致。关于场景标题的详细分析，请参阅附录。

正式地，将从图像编码器 𝒱 ( ⋅ ) 中提取的图像特征定义为 V i = 𝒱 ( I i ) , ∀ i ∈ [ 1 , … , N ] 。文本编码器 𝒱 ( ⋅ ) 提取地址特征 T i A = 𝒯 ( A i ) 和标题特征 T i C = 𝒯 ( C i + A i ) ，其中场景标题 C i 由视觉语言模型获得。我们通过实验观察到，将地址信息添加到场景标题更有利于地址定位，这将在第 6.3 节中详细讨论。注意，附加场景标题仅用于训练。图像和地址的对齐是通过 图像-地址对比损失 和 图像-标题对比损失 学习的。

对于包含图像-文本对的 N 大小的批量，图像-地址对比损失可以写成：

其中 τ 是温度参数。同样，图像-标题对比损失公式如下：

4.3 图像-地理匹配

一般来说，在全市范围内的场景中，地址文本在地域上可能相距甚远，但高度相似；也可能在地理位置上很接近，但却大相径庭。这使得仅使用地址文本难以优化图像-地址对齐学习。相反，图像的地理坐标（例如，UTM 坐标）差异显著，展现出清晰的差异和判别特性。从流形学习的角度来看，图像嵌入表示特征空间中图像的低维表示，其分布应与图像的地理坐标一致。我们的目标是确保在地理位置上接近的图像在特征空间中也表现出接近性，而地理位置相距较远的图像在特征空间中反映出更大的差异。可视化结果和分析将在第 6.4 节中详细阐述。

受上述动机的启发，我们提出了一种 图像-地理匹配损失 ，根据地理坐标的空间距离来约束图像特征。特别地，用 U i : 𝕌 𝕋 𝕄 e a s t × 𝕌 𝕋 𝕄 n o r t h , ∀ i ∈ [ 1 , … , N ] 表示与大小为 N 的批量中所有图像对应的地理坐标集。我们可以计算地理空间中空间距离矩阵 D U 的每个元素，如下所示：

其中采用了曼哈顿距离和最小-最大归一化。相应地，图像嵌入空间中特征相似度矩阵 D V 的每个元素计算如下：

因此，图像-地理位置匹配损失以图像特征相似度矩阵 D V 作为输入，以地理空间距离矩阵 D U 作为目标进行梯度反向传播，即
，

表1 ：提出的图像地址定位数据集的详细信息。

Dataset	Year	Dataset size	# train/val	# test	Query type	Image size	GPS	Address
Pitts-250K [4]	2016	9.4GB	250K	24K	panorama	480 × 640	✔	✘
SF-XL [7]	2022	1TB	41.2M	1K/0.6K	phone	512 × 512	✔	✘
Pitts-IAL	2024	6.7GB	234K	19K	panorama	480 × 640	✔	✔
SF-IAL-Base	2024	6.8GB	184K	21K	panorama	512 × 512	✔	✔
SF-IAL-Large	2024	121GB	1.96M	280K	panorama	512 × 512	✔	✔

4.4 目标函数

我们以端到端的方式，使用图像-文本对比损失和图像-地理位置匹配损失来训练提出的AddressCLIP。总目标函数如下：

ℒ t o t a l = α ℒ a d d r e s s + β ℒ c a p t i o n + γ ℒ g e o g r a p h y ,

(6)

其中 α 、 β 和 γ 是权重参数。

5 图像地址定位数据集

现有的图像地理定位数据集 [7, 46, 2] 仅包含图像拍摄位置的GPS坐标。同时，像LAION-5B [42] 这样的流行图像-文本数据集中的文本主要描述的是相应图像的语义内容，而不是地理信息。为了支持IAL问题的研究，我们引入了三个IAL数据集，分别命名为Pitts-IAL、SF-IAL-Base和SF-IAL-Large，它们分别源自Pitts-250k [46] 和SF-XL [7] 。我们将在下面描述构建这些数据集的详细过程。

5.1 地址标注

我们利用谷歌地图的反向地理编码API，根据附着在图像上的GPS坐标查找管理地址。该API返回一个地址列表，这些地址按其与GPS坐标的匹配程度排序，例如
[ A ( 1 ) , A ( 2 ) , ⋯ , A ( R ) ] 。然而，简单地选择 A ( 1 ) 作为地址标注通常是不精确的，因为API可能会匹配建筑物中心的GPS坐标并返回建筑物的地址。此外，当建筑物位于交叉街道的交叉路口时，API可能会返回不明确的地址。为了减轻这个问题，我们首先排除与建筑物匹配的地址信息（在API中标记为“ROOFTOP”位置类型）。然后，我们选择剩余地址中出现频率最高的地址作为最终地址，并通过随机人工验证和校正来确保其准确性。最后，我们采用引入的语义地址分区策略进行细粒度分区作为最终地址标注。

5.2 统计和可视化

我们在表 8 中对提出的IAL数据集进行了全面的比较，并在图 4 中可视化了它们的街道分布。具体来说， Pitts-IAL 是使用原始Pitts-250K [46] 数据集的训练集构建的，其中10,586个位置用来自不同视角的24张图像进行标注。这些图像-地址对根据位置以7:2:1的比例随机分为训练集、数据库集和查询集。由于Pitts-250K的稀疏性，查询被过滤以确保它们的地址可以被训练集和数据库覆盖。 SF-IAL 是从SF-XL [7] 数据集构建的，根据覆盖区域的大小分为两个版本，即SF-IAL-Base和SF-IAL-Large。 SF-IAL-Base覆盖旧金山的右上角，包含17,067个位置，每个位置都有12张来自不同视角的图像，其大小与Pitts-IAL相当。 SF-IAL-Large覆盖整个旧金山，包含233,820个位置。两个版本中的图像-地址对也根据位置以7:2:1的比例随机分为训练集、数据库集和查询集。已将介绍的数据集发布到社区，用于研究，网址为 https://github.com/xsx1001/AddressCLIP 。

6 实验

表2 ： Pitts-IAL、SF-IAL-Base和SF-IAL-Large数据集上地址定位的评估结果。

Method	Pitts-IAL				SF-IAL-Base				SF-IAL-Large
Method	SSA-1	SSA-5	SA-1	SA-5	SSA-1	SSA-5	SA-1	SA-5	SSA-1	SSA-5	SA-1	SA-5
Zero-shot CLIP	0.85	3.69	1.28	5.64	1.25	5.30	2.80	9.06	0.26	0.97	0.50	2.85
CLIP + address	77.66	93.28	80.86	94.17	83.66	96.32	85.76	96.85	81.84	95.38	84.56	95.79
CLIP + CoOp [53]	67.91	86.60	71.19	88.18	77.77	94.05	79.90	94.91	74.84	92.38	78.23	93.79
CLIP + CoCoOp [52]	69.04	88.34	73.28	89.78	79.19	95.27	81.15	96.32	76.92	93.58	79.85	94.04
CLIP + MaPLe [29]	72.98	91.85	76.04	92.27	81.46	96.98	83.69	97.77	79.63	94.47	82.34	95.96
AddressCLIP (Ours)	80.39	96.27	82.62	96.74	86.32	99.09	87.44	99.23	85.92	97.28	88.10	98.33

6.1 实验设置

实现细节。 我们的AddressCLIP基于OpenAI预训练的CLIP [39] 使用PyTorch实现，无需额外参数。所有图像都被调整为224 × 224大小，并进行归一化处理以适应CLIP的输入。除非另有说明，否则实验使用CLIP的ViT/B-16版本。我们采用视觉语言模型BLIP [30] 生成附加场景字幕。更多训练细节见附录。

指标。 通过计算预测地址的准确性（例如标准Top-1和Top-5准确性）来衡量地址定位性能是很直接的。考虑到不同场景中返回地址的精确要求各不相同，我们专门设计了两个指标来评估地址定位性能，即
，街道级准确率 (SA) 和街道以下级别准确率 (SSA) 。正式地，对于给定的查询图像，模型的输出可以表示为 A p = [ S m , S c , S n ] ，其中 S m 是主要街道， S c 是与 S m 相交的街道集合， S n 是邻里。真实地址表示为 A g t = [ S g t m , S g t c , S g t n ] 。如果 S m = S g t m 和 S n = S g t n 成立，则预测在街道级别是正确的。只有当 A p = A g t 满足时，它在街道子级别才是正确的。 Top-1和Top-5准确率均报告为SA-1、SA-5、SSA-1和SSA-5。

6.2 主要结果

基线。 我们将我们的方法与零样本CLIP和一个使用简单地址提示的微调CLIP模型进行了比较。图像地址定位可以被认为是一个下游的视觉语言任务，因此可以使用提示学习方法将预训练的CLIP迁移到地址定位。我们还与几种具有代表性的视觉语言模型提示学习方法进行了比较，即。
，CoOp [53] ，CoCoOp [52] 和MaPLe [29] 。

比较。 表 2 显示了在引入的Pitts-IAL、SF-IAL-Base和SF-IAL-Large数据集上与上述基线的比较结果。很明显，我们的方法在三个数据集上各种指标的性能都非常出色。由于在预训练期间图像文本对中缺乏明确的地址信息，零样本CLIP模型表现不佳。使用地址微调CLIP后，所有三个数据集上的地址定位精度都显著提高，形成了一个强大的基线。

表3 ：对提出的数据集上关键组件的消融研究。

ℒ a d d r e s s	ℒ c a p t i o n	ℒ g e o g r a p h y	Pitts-IAL				SF-IAL-Base
ℒ a d d r e s s	ℒ c a p t i o n	ℒ g e o g r a p h y	SSA-1	SSA-5	SA-1	SA-5	SSA-1	SSA-5	SA-1	SA-5
✔			77.66	93.28	80.86	94.17	83.66	96.32	85.76	96.85
	✔		69.27	87.23	71.39	88.92	75.85	89.21	77.24	91.46
✔	✔		79.20	94.15	81.26	94.64	84.86	97.46	86.03	98.04
✔		✔	79.27	95.15	81.45	95.61	85.54	98.98	86.64	98.15
✔	✔	✔	80.39	96.27	82.62	96.74	86.32	99.09	87.44	99.23

表4 ：不同编码器训练策略在提出的数据集上的性能。 ✘ 表示冻结权重，✔ 表示解冻权重。

Image	Text	Pitts-IAL				SF-IAL-Base
Image	Text	SSA-1	SSA-5	SA-1	SA-5	SSA-1	SSA-5	SA-1	SA-5
✔	✘	77.77	89.20	80.28	90.48	84.32	93.63	85.82	95.05
✘	✔	48.88	78.31	52.43	80.89	54.62	83.74	57.50	86.06
✔	✔	80.39	96.27	82.62