AAAI'25 | 排名第一！复旦新作AIO-Stereo：超越所有立体匹配！

3D视觉工坊 · 公众号 · · 2025-02-06 07:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：All-in-One: Transferring Vision Foundation Models into Stereo Matching

作者：Jingyi Zhou, Haoyu Zhang, Jiakang Yuan, Peng Ye, Tao Chen, Hao Jiang, Meiya Chen, Yangyang Zhang

机构：Fudan University、Xiaomi Inc、Shanghai AI Laboratory、The Chinese University of Hong Kong

原文链接：https://arxiv.org/abs/2412.09912

1. 导读

立体匹配作为一项基本的视觉任务，已经取得了显著的进展。虽然最近的基于迭代优化的方法已经取得了令人鼓舞的性能，但是它们的特征提取能力仍然有改进的空间。受视觉基础模型(vfm)提取一般表示的能力的启发，在本工作中，我们提出了AIO立体模型，它可以灵活地选择和转移来自多个异构vfm的知识到单个立体匹配模型。为了更好地协调异构视觉模型和立体匹配模型之间的特征，并充分利用视觉模型的先验知识，我们提出了一种双层特征利用机制，该机制对齐异构特征并传递多层知识。基于该机制，设计了双层选择性知识转移模块，实现了知识的选择性转移，整合了多种虚拟制造模式的优势。实验结果表明，AIO-Stereo在多个数据集和排序上取得了领先的性能1st在Middlebury数据集上的性能优于所有已发表的ETH3D基准测试。

2. 引言

随着3D视觉任务及其在机器人技术和自动驾驶等领域的应用发展，立体匹配已成为一项基础视觉任务，因为它能够在真实的3D世界中提供深度信息。立体匹配模型通常会预测一对校正图像之间像素级的位移（即视差），并通过相机标定进一步解码深度信息。

得益于深度学习的成功，一些工作开始探索基于学习的方法。PSMNet作为里程碑式的工作，利用3D卷积对4D代价体积进行正则化，从而提升了性能。然而，这类基于学习的方法需要较大的计算成本。最近，基于迭代优化的方法通过逐步更新视差图，在立体匹配任务上展现出巨大潜力。Selective-Stereo提出了选择性循环单元和上下文空间注意力模块，以进一步提高预测细节区域的能力。

尽管性能有了显著提升，但现有模型的一般特征提取能力相对较弱，原因如下：

（1）最近的最先进（SOTA）工作（例如Selective-Stereo）主要关注优化迭代更新机制，而部分忽视了编码特征的质量。同时，面向任务的优化目标也使得编码器难以学习全局和上下文信息。（2）立体匹配数据量相对较小，且大部分是合成数据。模型难以从不足的数据中学习一般表征。例如，先前的方法（例如Selective-IGEV）无法预测纹理特征模糊的黑暗区域的深度信息，因为这些区域的特征高度相似。因此，基于像素间特征匹配的视差预测容易出现较大不匹配。

最近，视觉基础模型（VFMs）的出现并在各种任务上展现出令人瞩目的性能。这些VFMs在大规模数据集上进行训练，能够提取一般表征，这促使我们考虑将多个VFMs的一般特征提取能力注入到立体匹配模型中。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解。

然而，将多个VFMs的知识直接转移到单个立体匹配模型中并不容易，主要原因如下。（1）大多数现有的VFMs基于Transformer架构，而立体匹配模型通常基于卷积神经网络（CNN）。模型架构的异质性会在简单合并或提炼中间特征时导致特征不匹配。（2）由于训练数据、方法和任务的不同，不同的VFMs对特征表征的关注点也不同。例如，以自监督方式预训练的DINO倾向于提取全局语义信息。相比之下，以SAM为代表的大型分割模型更注重捕捉小物体和边缘的语义信息。因此，如果不进行选择而直接使用多个视觉基础模型的特征，会导致特征冲突。

基于上述观察和分析，我们认为编码特征的质量对于立体匹配任务同样至关重要，因为它们是迭代更新模块信息的主要来源，直接影响迭代过程的每一步。为此，我们提出了一种高效的知识迁移框架，命名为AIO-Stereo，该框架能够从多个VFMs中筛选和学习有利知识，以获得足够有效且信息丰富的特征。为了有效迁移异构VFMs的知识并充分利用不同的VFMs，我们开发了一个双级知识利用模块，以弥合错位特征之间的差距并传递多级知识。此外，考虑到从多个VFMs中派生的特征差异巨大且可能存在冲突，我们提出了一个双级选择性知识迁移模块，以选择性地迁移知识并充分利用每个VFM的优势。

3. 效果展示

(a) AIO-Stereo的概述，其将来自多个vfm的选定知识转移到单个立体匹配模型。(b)在黑暗和低纹理区域中选择性IGEV和我们的AIO-Stereo之间的比较。

立体匹配定性对比。

4. 主要贡献

我们的贡献可以总结如下：

• 为了增强对立体网络的一般理解，我们首次提出利用多个视觉基础模型的多样化和一般知识来进行立体匹配。

• 我们提出了一个灵活的知识迁移框架，命名为AIO-stereo，它包括双级知识利用模块和选择性知识迁移模块，能够有效且高效地将多个异构视觉基础模型的多级知识迁移到单个立体匹配模型中。

• 实验结果表明，所提出的AIO-Stereo在Middlebury数据集上排名第一，并在ETH3D基准测试中优于已发布的方法。

5. 方法

AIO-Stereo的总体框架。左侧：AIO-Stereo通过提出的双级选择性知识迁移模块，从SAM、DINO和Depth Anything中选择性地学习知识。右侧：我们提出的双级选择性知识迁移模块的详细结构。

6. 实验结果

AI0-Stereo利用来自三个VFM(即DINO v2、SAM和Depth Anythingv2)的知识来增强特征表示并提高整体准确性。为了验证我们的方法可以有效整合多个VFM的优势，我们对使用不同数量的VFM(即仅DINO、DINO和SAM、DINO、SAM和Depth Anything)进行了实验。如表1上半部分所示使用VFM时性能得到提高，这验证了AIO-Stereo可以有效学习VFM。此外，随着使用VFM数量的增加，性能得到持续改善。这是因为每个VFM都有其独特的优势和知识，我们的AlO-Stereo可以有效地整合来自不同VFM的知识。此外，结果还突显了我们的AIO-Stereo的内在灵活性，它不依赖于单一的基础模型，而是旨在有效地协调多个模型，利用它们的优点来服务于我们的立体匹配任务。这表明我们的Al0-Stereo可以灵活地利用各种VFM。

针对Middlebury数据集，我们首先在混合的Tartan Air、CREStereo数据集、Scene Flow、Falling Things、InStereo2k、CARLA HR-VS）以及Middlebury数据集上，使用裁剪大小为384 × 512、批次大小为8的配置，对我们的预训练模型进行了200,000步的微调。然后，我们又在混合的CREStereo数据集、Falling Things、InStereo2k、CARLA HR-VS以及Middlebury数据集上，使用裁剪大小为384 × 768、批次大小为8的配置，进行了另外100,000步的微调。如表2所示，我们的方法在Middlebury测试集上取得了当前最优（SOTA）性能。具体而言，我们的方法在未对细化过程进行额外设计的情况下，在坏2像素误差上分别比Selective-IGEV和DLNR高出5.98%和26.25%，这充分证明了我们的设计是有效的。