专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

TPAMI 2024 | 用于图像匹配的动态关键点检测网络

3DCV · 公众号 · · 2024-10-17 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：计算机书童

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

题目：Dynamic Keypoint Detection Network for Image Matching

用于图像匹配的动态关键点检测网络

作者：Yuan Gao; Jianfeng He; Tianzhu Zhang; Zhe Zhang; Yongdong Zhang

摘要

在现实世界的挑战，如光照、视角和尺度变化的情况下，建立一对图像之间的有效对应关系是困难的。现代基于检测器的方法通常从给定数据集中学习固定的检测器，这很难提取在极端外观变化和纹理稀疏场景下对各种图像重复且可靠的关键点。为了解决这个问题，我们提出了一种新颖的动态关键点检测网络（DKDNet），通过动态关键点特征学习模块和引导的热图激活器，实现鲁棒的图像匹配。所提出的DKDNet具有几个优点。首先，所提出的动态关键点特征学习模块可以通过注意力机制生成自适应的关键点特征，该机制可以随着当前输入图像灵活更新，并且能够捕获具有不同模式的关键点。其次，引导的热图激活器可以通过充分考虑不同特征通道的重要性来有效地融合多组关键点热图，从而实现更鲁棒的关键点检测。在四个标准基准上的广泛实验结果表明，我们的DKDNet在性能上大幅度超越了最先进的图像匹配方法。具体来说，我们的DKDNet在HPatches上的AUC@3px上比最佳图像匹配方法高出2.1%，在ScanNet上的AUC@5°上高出3.74%，在MegaDepth上的AUC@5°上高出7.14%，在YFCC100M上的AUC@5°上高出12.32%。

关键词

注意力机制
动态关键点检测
图像匹配

摘要

在现实世界的挑战，如光照、视角和尺度变化的情况下，建立一对图像之间的有效对应关系是困难的。现代基于检测器的方法通常从给定数据集中学习固定的检测器，这很难提取在极端外观变化和纹理弱的场景中各种图像的可重复和可靠的关键点。为了解决这个问题，我们提出了一种新颖的动态关键点检测网络（DKDNet），通过动态关键点特征学习模块和引导热图激活器，实现鲁棒的图像匹配。所提出的DKDNet具有几个优点。首先，所提出的动态关键点特征学习模块可以通过注意力机制生成自适应的关键点特征，该机制可以随着当前输入图像灵活更新，并且能够捕获具有不同模式的关键点。其次，引导热图激活器可以通过充分考虑不同特征通道的重要性来有效地融合多组关键点热图，从而实现更鲁棒的关键点检测。在四个标准基准上的广泛实验结果表明，我们的DKDNet在性能上大幅度超越了最先进的图像匹配方法。具体来说，我们的DKDNet在HPatches上的AUC@3px、ScanNet上的AUC@5°、MegaDepth上的AUC@5°和YFCC100M上的AUC@5°上分别比最佳图像匹配方法高出2.1%、3.74%、7.14%和12.32%。

关键词

注意力机制
动态关键点检测
图像匹配

引言

在一对图像之间找到像素级对应关系是计算机视觉中的一个基本任务，它可以应用于视觉定位[1]、[2]、姿态估计[3]、[4]以及同时定位与地图构建（SLAM）[5]、[6]。由于其广泛的应用潜力，它已经吸引了越来越多的来自学术界和工业界的关注，近年来提出了许多方法[7]、[8]、[9]、[10]、[11]。然而，由于现实世界中的挑战，如光照、视角和尺度变化，仍然存在困难。

为了克服上述挑战，已经提出了许多图像匹配方法[9]、[11]、[12]、[13]。一般来说，现有工作可以分为两组，包括无检测器方法[10]、[11]、[13]、[14]、[15]、[16]和基于检测器的方法[7]、[8]、[9]、[17]、[18]、[19]。对于无检测器方法，目标是在图像之间建立密集点的对应关系，因为没有设计关键点检测器[10]、[11]、[13]。NCNet[10]构建4D代价体积来枚举图像之间所有可能的匹配，并在建立的匹配之间实施邻域一致性约束。由于4D代价体积中考虑了所有可能的匹配，无检测器方法取得了巨大的成功。然而，这些方法[10]、[11]通常因为缺乏关键点检测过程来减少匹配空间而遭受高计算成本。不同地，基于检测器的方法[7]、[8]、[12]、[20]旨在通过设计的关键点检测器提取的稀疏匹配点之间找到匹配。如今，这些方法在图像匹配领域仍然很受欢迎，通常包括三个主要阶段。首先，设计一个关键点检测器[17]、[21]来检测局部可重复的显著点，然后从每个关键点周围的局部区域提取描述符[22]，最后从关键点对之间的所有可能候选匹配中选择一组高置信度的匹配[9]。在这些方法中，SIFT[21]是最知名的手工制作检测器之一，它通过利用与图像卷积的差异-高斯函数来检测空间尺度关键点。最近，一些关键点检测器以数据驱动的方式被设计出来[7]、[8]、[17]。例如，R2D2[8]试图学习一个固定的1×1卷积核作为关键点检测器。然后，通过关键点检测器和图像特征图之间的内积操作获得关键点热图。

基于上述讨论，为了实现鲁棒的关键点检测以进行图像匹配，应该很好地设计关键点检测器，然后提出一个关键点热图计算策略，以利用关键点检测器和图像特征图获取关键点热图。具体来说，应该考虑以下两个方面。1) 关键点检测器设计。一般来说，不同图像中的关键点具有不同的模式，由于诸如光照、视角、尺度和对象类别变化等多样化的现实世界挑战而显著变化。传统的基于检测器的方法，如SIFT[21]，使用手工算法设计关键点检测器，这些方法很容易受到人类先验知识的局限，缺乏灵活性。为了缓解这个问题，已经提出了数据驱动的检测器[7]、[8]、[12]、[19]。然而，这些方法（例如R2D2[8]）大多只能从给定数据集中获得一个固定的检测器，可能缺乏适应不同关键点模式的灵活性。尽管已经提出了一些方法[12]通过丰富训练数据集来解决这个问题，但这并不值得，因为构建这样一个学习数据库既耗时又费力。因此，为了处理多样化的挑战因素，需要设计动态关键点检测器。如图1所示，我们可以看到设计出的动态关键点检测器可以随着输入图像灵活更新，并动态感知不同模式的关键点。2) 关键点热图计算。大多数先前的方法[8]直接通过点积操作计算关键点特征和图像特征图之间的相似性来获得关键点热图，这会丢失很多信息，因为它只产生一个关键点热图，而没有充分考虑不同特征通道的重要性[23]。因此，有必要提出一种更有效的热图计算策略，可以充分考虑不同特征通道的重要性。

受到上述观察的启发，我们提出了一种新颖的动态关键点检测网络（DKDNet），用于图像匹配，通过动态关键点特征学习模块和引导热图激活器。如图2所示。在动态关键点特征学习模块中，它被设计为在训练和测试期间为每个输入图像生成自适应的关键点特征。考虑到传统方法中使用的单一和固定关键点检测器的缺点，我们设计了多个原型关键点特征（PKFs）。这里，不同的PKFs旨在关注不同模式的关键点，我们设计的关键点检测器可以随着每个输入图像自适应更新。具体来说，我们首先引入自注意力机制来显式地模拟多个PKFs之间的相互作用。然后，使用交叉注意力机制通过显式模拟PKFs和图像特征图F之间的相互作用来生成自适应的关键点特征。最后，在整体目标函数的指导下，每个关键点特征学习特别适合特定模式（例如形状和纹理变化）。此外，由于PKFs和图像特征图之间的相互作用，生成的关键点检测器获得了长距离信息，这有助于处理强烈的外观变化。在引导热图激活器中，我们提出了一种新方法来获取关键点热图，可以充分考虑不同特征通道的重要性。具体来说，我们将生成的关键点检测器和图像特征图的特征通道分成多个组，然后利用组相关模块分别计算与每个组相关的多组关键点热图，然后使用从图像特征图计算出的引导权重进行融合。

这项工作的主要贡献可以总结如下。1) 我们提出了一种新颖的动态关键点检测网络，用于图像匹配，通过动态关键点特征学习模块和引导热图激活器，可以实现对各种挑战因素鲁棒的动态关键点检测。2) 所提出的动态关键点特征学习模块可以根据当前输入图像通过注意力机制灵活更新，这有利于检测具有不同模式的关键点，并且适合多样化的挑战。引导热图激活器可以充分考虑不同特征通道的重要性，有助于实现更鲁棒的关键点检测。3) 在四个具有挑战性的基准上的广泛实验结果表明，我们的方法在性能上大幅度超越了最先进的图像匹配方法。

Ⅲ 我们的方法

在本节中，我们提出了用于图像匹配的动态关键点检测网络。整体架构如图2所示。

A. 概述

如图2所示，我们提出的动态关键点检测网络主要由两个设计组成，包括动态关键点特征学习模块和引导热图激活器。具体来说，给定一个输入图像，我们首先通过一个受R2D2[8]启发的骨干网络提取其特征图。然后，在动态关键点特征学习模块中，我们定义了一组原型关键点特征（PKFs）来处理不同的关键点模式。我们采用自注意力层来显式地模拟多个PKFs之间的相互作用，然后使用交叉注意力层来显式地模拟PKFs和图像特征图之间的相互作用。最终，我们可以生成一组动态关键点检测器。

此外，我们将图像特征图和一组动态关键点检测器作为输入，设计了一种新的方法来生成鲁棒的关键点热图。考虑到图像特征图中不同通道的重要性不同，我们将图像特征图和生成的动态关键点特征沿特征通道分成几组，然后设计一个组相关层分别计算与每个组相关的多组关键点热图。然后，我们尝试融合来自不同关键点检测器的热图，并得到。接下来，我们将图像特征图输入到一个标准的2D卷积层中，生成引导权重，并将其应用于进行多组热图融合。最终，我们可以生成一个鲁棒的关键点热图，它可以考虑不同特征通道的重要性。

B. 动态关键点特征学习模块

在动态关键点特征学习模块中，我们设计了一组原型关键点特征（PKFs），从每个输入图像中学习自适应的关键点特征，其中所有的PKFs都设置为可学习的参数。具体来说，如图2所示，我们首先设计一个自注意力层来显式地模拟不同PKFs之间的相互作用，然后采用一个交叉注意力层来显式地模拟PKFs和图像特征图之间的相互作用。通过这种方式，我们学习到的关键点特征可以随着输入图像动态变化，并获取对于处理大外观变化至关重要的长距离信息。对于自注意力层，查询、键和值都来自原型。形式上，

在本文中，我们设置。最终输出的动态关键点检测器为。

C. 引导热图激活器

通常，给定图像特征图和设计的关键点检测器，关键点热图是通过直接计算它们之间的相似性通过点积操作获得的。然而，没有考虑图像特征图中不同通道的重要性可能是不同的，这可能对关键点检测不利。因此，我们提出了一种更有效的热图计算策略，可以充分考虑不同特征通道的重要性。给定图像特征图和每个动态关键点检测器，我们将它们沿特征通道分成组，得到和。然后，我们可以使用组相关层分别计算与不同关键点检测器相关的每组的热图，公式如下，

其中是与图像特征和第个关键点检测器计算的多组关键点热图。

然后，我们设计了一个多检测器热图融合操作来融合这些从不同关键点检测器计算出的关键点热图，并得到，即，

其中是可学习的权重。考虑到不同特征通道组的重要性不同，我们对图像特征图应用一个1×1的卷积层来生成引导权重。基于计算出的引导权重，我们提出了一个多组融合操作来获得最终的关键点热图，即，

这里，是关键点热图。表示逐元素乘法操作。操作符是通过一个1×1的卷积层实现的，其卷积核为。最终，通过充分考虑不同特征通道的重要性的优雅设计，我们的模型可以实现鲁棒的关键点检测，以进行图像匹配。关于图像匹配领域存在的各种挑战，一个关键因素是某个图像特征图中不同通道的重要性不同，因为它们分别与不同的外观属性相关。我们的模型可以关注不同关键点的显著特征，使关键点检测适应性强，从而实现鲁棒的图像匹配。

D. 目标函数

在这一部分，我们介绍我们的目标函数来指导关键点检测学习。这里，考虑了三个主要因素。对于关键点的可重复性，我们使用了受R2D2 [8]启发的余弦相似度损失。我们记同一场景的一对图像为和，并设为它们之间的真实对应关系。我们定义了一个包含所有个补丁的重叠补丁集合，这些补丁来自输入图像。在获得图像的关键点激活图和图像的激活图之后，我们首先根据对应关系将从图像变形到图像，获得。然后我们定义所有个补丁内的余弦相似度损失如下，

其中表示从中提取的个补丁(o)的激活图，同理。

为了使所提出的关键点检测器专注于显著位置的目标，我们使用激活图峰值损失：

众所周知，最先进的无检测器方法[13]、[27]与以前的基于检测器的方法[7]、[8]、[19]、[34]相比，性能有了显著提高。通过广泛的实验和观察，我们注意到主要原因是无检测器方法在形成约束时考虑了图像中的密集点，而基于检测器的方法只考虑了几个稀疏的关键点作为约束。因此，为了进行公平比较，我们使用了一个密集损失函数，它考虑了更多的点作为约束。具体来说，我们首先利用所提出的模型检测两个图像的关键点。然后，我们使用最近邻匹配算法根据通过修改后的L2Net提取的描述符在提取的关键点之间找到匹配。然后我们可以获得稀疏对应关系，这些对应关系可以用来估计单应性变换。最后，我们可以利用单应性变换导出密集对应关系。因此，我们可以设计一个密集匹配损失函数如下：

其中是通过估计的单应性变换获得的密集匹配结果。我们使用关键点热图来生成权重，这允许我们对显著的关键点施加更强的约束。最后，我们通过加权和来训练我们的模型，即，

其中和是用来平衡显著关键点和密集对应关系的约束的权重项。

E. 讨论

在本节中，我们讨论了我们提出的动态关键点检测网络（DKDNet）与现有的一些先进方法之间的主要区别和联系。

R2D2 ：R2D2旨在检测可重复和可靠的关键点。然而，它使用固定的卷积核作为关键点检测器，其关键点热图是通过直接计算关键点特征和图像特征图之间的相似性通过点积操作获得的。因此，关键点检测缺乏对测试图像中不同关键点模式的适应性，这不利于处理图像匹配中的多样化挑战。不同地，我们尝试设计一个动态关键点特征学习模块，该模块利用多个原型关键点特征生成一组动态关键点特征，这些特征能够适应输入图像，在训练和测试期间都能实现。
DETR ：DETR是专门为目标检测任务提出的。通过设计一个有效的Transformer编码器-解码器，包含一组对象查询，它可以通过交叉注意力机制在对象查询和全局图像上下文之间建立交互，然后并行输出最终的一组检测预测。与DETR不同，我们的动态关键点检测器是专门为图像匹配任务设计的。此外，我们还引入了一个引导热图激活器来考虑不同特征通道的重要性，这有助于从不同对象中提取鲁棒的关键点。
MaskFormer和Mask2Former ：MaskFormer和Mask2Former是专门为语义分割任务提出的。受DETR启发，MaskFormer利用强大的注意力机制有效地与输入图像进行交互，并计算一组对，每个对包括一个类别预测和一个相应的掩码嵌入向量。基于MaskFormer，Mask2Former还引入了一种新颖的多尺度方法，有效利用高分辨率特征以增强整体性能。与MaskFormer和Mask2Former不同，我们提出的方法专门针对图像匹配任务中的复杂挑战。我们利用动态关键点特征来识别输入图像中的不同模式的关键点。此外，我们还设计了一种新颖的引导热图激活器，有助于识别每个关键点最相关的特征通道。通过选择性地关注最有信息量的通道，我们的方法可以更准确、更鲁棒地检测关键点，即使在具有挑战性的条件下也是如此。这些创新使我们的方法在图像匹配任务中实现了最先进的结果。
与R2D2、DETR、MaskFormer和Mask2Former的不同之处 ：与R2D2、DETR、MaskFormer和Mask2Former不同，我们将注意力机制应用于关键点检测和图像匹配，从而实现了一个动态关键点特征学习模块，该模块可以使用一组原型关键点特征生成多个动态关键点特征。通过这种方式，我们设计的关键点检测器可以专注于各种模式的关键点，并适应每个输入图像。我们还设计了一种新颖的方法来计算关键点热图，充分考虑了不同特征通道的重要性。

IV. 实验

在本节中，我们首先介绍实现细节。然后，我们在四个公共基准上展示实验结果。最后，进行了一系列消融研究以验证每个组件的有效性。

A. 实现细节

在这项工作中，我们使用Pytorch [46]实现了所提出的模型。与[8]中一样，骨干网络受到L2-Net [31]的启发，有两个小的差异：(a) 为了在所有阶段保持输入分辨率，将下采样替换为扩张卷积，(b) 最后的卷积层被3个连续的卷积层替换。实验表明，这种修改在权重数量上减少了5倍，同时保持了类似的精度。注意力层的数量设置为3，dropout操作的因子设置为0.1，前馈的维度设置为256。至于热图激活器，组的数量设置为8，通过卷积实现多组热图融合。将图像特征图放入具有内核大小为的卷积层后，输出的引导权重应用于关键点热图。然后，通过卷积获得最终的关键点热图。目标函数中的权重项设置为0.6，设置为1.2。我们采用了R2D2 [8]提出的关键点检测策略来进行完整的检测过程。具体来说，我们从原始尺寸开始，逐步处理输入图像的各个尺度。我们从原始尺寸开始，逐步将图像下采样2的幂次，直到图像小于128像素。在每个尺度上，我们将检测到的关键点投影回原始尺寸，并结合它们以生成最终的关键点。对于最终的最近邻匹配，我们使用的描述符是CNN骨干网络（即图像特征图F）的输出，与R2D2 [8]类似。对于训练，我们采用了与R2D2相同的数据集[1]、[47]、[48]作为户外训练数据集，以及[49]作为室内训练数据集。一开始，动态关键点特征学习模块和引导热图激活器中的所有参数都是随机初始化的，我们从头开始训练这些参数。我们使用Adam优化器[50]训练我们的模型。学习率设置为，权重衰减为。在单个RTX 3090 GPU上训练24小时后收敛。

B. 数据集和评估指标

HPatches: HPatches [51]数据集是评估图像匹配性能的流行基准，包含116个场景的真实单应性。对于每个场景，第一幅图像被视为参考图像，该场景中的其余五幅图像用作查询图像。这里，我们遵循[8]、[19]的评估程序，排除了8个高分辨率序列，剩下108个图像序列。在这些序列中，56个包含视角变化大，52个在光照变化显著。至于评估指标，我们使用与[13]相同的定义，并报告角错误累积曲线下的面积（AUC）。

YFCC100M: YFCC100M数据集[53]通常用于验证户外姿态估计的性能。它包含1亿张来自互联网的照片。图像对具有充足的光照和尺度变化，使数据集具有挑战性。我们采用与[9]、[54]相同的测试对进行评估，即在该数据集的4个场景中，每个场景由1000个图像对组成。真实的姿态是通过使用现成的SfM工具[55]生成旅游地标的3D重建来创建的。为了恢复相机姿态，我们使用预测的匹配来估计本质矩阵与RANSAC [56]。最后，可以根据这个本质矩阵计算旋转矩阵和平移向量。与以前的作品[9]、[54]、[57]一致，我们使用的评估指标是姿态误差的AUC，在阈值(5°, 10°, 20°)。

ScanNet: ScanNet [49]是一个大规模室内数据集，用于针对室内姿态估计任务。它由具有真实姿态和深度图像的单目序列组成。由于包含宽基线和广泛无纹理区域的图像对，该数据集具有挑战性。我们遵循[9]、[13]的工作设置，并使用[9]中的1500个图像对来评估所提出的模型。这里，我们采用的评估指标与上述户外情况相似，即报告室内姿态误差的AUC在阈值(5°, 10°, 20°)。

MegaDepth: MegaDepth [58]由196个场景的100万张互联网图像组成。此外，还提供了由COLMAP [59]构建的这些图像的稀疏3D点云和深度图。极端视角变化和重复模式是MegaDepth的主要挑战。我们遵循[13]的工作设置，并使用[13]中的1500个图像对来评估所提出的模型。这里，我们采用的评估指标与上述户外情况相似，即报告姿态误差的AUC在阈值(5°, 10°, 20°)。

C. 与最先进方法的比较

在HPatches数据集上的结果：我们所提出的DKDNet与其他最先进的图像匹配方法[7]、[8]、[9]、[11]、[13]、[15]、[19]、[52]进行了比较。结果表明，我们的方法在所有方面都优于其他方法。得益于我们提出动态关键点特征学习模块和引导热图激活器，我们的方法能更好地处理现实世界中的挑战，如光照变化和视角变化。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@3px、AUC@5px和AUC@10px上的总体性能分别提高了2.1%、3.1%和3.4%。与基线相比，我们提出的方法在AUC@3px、AUC@5px和AUC@10px上分别比R2D2 [8]提高了17.4%、14.8%和11.2%。这充分证明了我们提出动态关键点特征学习模块和引导热图激活器的有效性。此外，我们对我们提出的方法进行了全面的评估，仅使用单尺度推理。如表II所示，我们报告了可重复性、匹配得分和关键点定位误差。可以看出，我们提出的方法在可重复性(Rep.)、匹配得分(M. Score)和关键点定位误差(MLE)方面均优于先前最先进的方法[52]，分别提高了10.9%、15.9%和37.2%。最后，我们在图5中展示了一些定性结果。可以发现，我们的方法在面对光照变化（前两行）和视角变化（后两行）的挑战时，能够实现鲁棒的关键点检测并表现良好。

为了进一步证明我们提出的DKDNet可以有效地实现对各种挑战性因素具有鲁棒性的动态关键点检测并获得更可靠的图像匹配结果，我们展示了与几种最先进方法的定性比较，包括HPatches上的R2D2 [8]，SuperGlue [9]和LoFTR [13][51]。我们在图3中给出了光照变化下的定性比较，在图4中给出了视点变化下的定性比较。绿色和红色十字分别表示正确和不正确的匹配。很明显，我们提出的方法检测到更强大的关键点，并在不同的光照和视点变化下实现了更高的匹配精度。

在YFCC100M数据集上的结果：如表III所示，我们比较了我们提出的方法与其他最先进的图像匹配方法[7]、[8]、[9]、[13]、[34]。结果表明，我们提出的方法可以大幅度超越其他图像匹配方法。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了12.32%、7.94%和2.66%。与基线相比，我们提出的方法在阈值(5°, 10°, 20°)上均优于R2D2 [8]。具体来说，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了18.75%、16.67%和11.93%。结果表明，我们的方法在YFCC100M数据集上明显优于其他图像匹配方法。在图6中，我们展示了一些定性结果。每行显示了测试集中特定场景的一对图像。与HPatches相比，同一匹配对中存在多个挑战，如图6所示。因此，对关键点特征的鲁棒性有更高的要求。我们提出的方法能够在YFCC100M数据集上实现鲁棒的图像匹配，这在很大程度上得益于我们提出的动态关键点特征学习模块和引导热图激活器。借助这两个设计，我们的方法可以适应各种挑战，为不同模式的关键点动态捕获不同的模式。

在ScanNet数据集上的结果：我们比较了我们提出的方法与其他最先进的图像匹配方法[7]、[8]、[9]、[11]、[13]、[19]、[34]、[54]、[57]、[60]、[61]。如表IV所示，我们提出的方法在所有3个阈值上都优于其他最先进的方法。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了3.74%、5.51%和7.15%。与基线

相比，我们提出的方法在AUC@5°、AUC@10°和AUC@20°上分别比R2D2 [8]提高了18.37%、28.86%和36.13%。结果表明，我们的方法可以在室内场景中实现更准确的位姿估计。显然，我们的模型能够在室内姿态估计中建立准确的对应关系，并在图像匹配方法中实现了最先进的性能。最后，我们在图7中展示了一些定性结果。每行显示了测试集中特定场景的一对图像。可以看出，ScanNet数据集中的主要挑战因素是广泛无纹理区域的存在。我们的方法能够在ScanNet上实现所有图像匹配方法中的最佳性能。我们将最高性能归因于我们设计的动态关键点特征学习模块和引导热图激活器，它们可以充分考虑不同特征通道的重要性，并自适应地提取显著的关键点，以减轻无纹理区域中的匹配混淆。为了进一步洞察我们提出的方法所取得的优越性能，我们在ScanNet [49]上展示了与最先进方法的定性比较。如图9所示，我们的方法可以保留比其他方法更多的正确匹配点，这有助于实现更优越的性能。

在MegaDepth数据集上的结果：我们比较了我们提出的方法与其他最先进的图像匹配方法[7]、[8]、[9]、[11]、[13]。如表V所示，我们提出的方法在位姿精度方面优于所有竞争对手。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了7.14%、4.73%和2.64%。与基线相比，我们提出的方法在所有错误阈值下都显著优于R2D2 [8]。具体来说，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了22.80%、18.83%和14.17%。结果证明了我们设计的效...

D. 消融研究

为了分析我们提出的方法的有效性，我们在HPatches、ScanNet和YFCC100M数据集上进行了一系列消融研究。

动态关键点特征学习模块的有效性：为了证明动态关键点特征学习模块的有效性，我们将这个模块添加到基线R2D2 [8]中，并与[8]进行比较。加入动态关键点特征学习模块(DKF)后，在HPatches、ScanNet和YFCC100M数据集上的性能显著提高。具体来说，在加入动态关键点特征学习模块后，性能在HPatches上提高了16.3%，在ScanNet上提高了16.63%，在YFCC100M上提高了16.34%。主要原因是我们提出的动态关键点特征学习模块能够适应当前输入图像，并动态生成能够分别关注特定模式关键点的关键点特征。因此，不同模式的关键点可以更成功、更鲁棒地被检测到。

为了进一步验证我们提出的动态关键点特征学习模块的有效性，我们研究了原型关键点特征数量的影响。我们设计了七个模型，分别设置、