前端
:该系统输入从图像中提取的可用的2D点和线描述子集,这些描述子集来自于图像中提取的2D点和线的结果。为了收集这些输入,我们依赖于现成的2D点和线检测器,可以是手工设计的策略或基于学习的方法,如SIFT、SuperPoint、LSD和DeepLSD。对于点的描述子特征,我们利用了提取器产生的直接结果。对于线,我们选择使用点描述子来表示线,而不是采用单独的线描述子。这种方法更加方便和成本效益,适用于后续的推理过程。为了实现这一点,我们均匀采样了T个点描述子来表示一条2D线段,然后将其作为注意力增强模块的输入。
注意力增强
:注意力增强是我们方法的关键组成部分,由三个子模块组成:线转换编码器、自注意力和交叉注意力。每个子模块都专门设计用于利用描述子相似性增强线和点的特征。
线转换编码器
:由于前端模块提取的点和线特征具有不同的维度,我们首先采用基于transformer的编码器来对齐线描述子的维度,使其类似于点的维度。编码线描述的过程如图3所示。
自注意力和交叉注意力
:我们将注意力模块视为一个完整的图,其中有两种类型的无向边。自注意力边将同一图像中所有周围的点或线描述子连接起来,而交叉注意力边将点连接到线和线连接到点。
建图回归器
:最后,我们使用两个不同的MLP网络来回归点和线的3D坐标。模型输入来自注意力模块的精细描述子。