专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

排名第一！NVIDIA全新开源FoundationStereo：万能立体匹配！

计算机视觉工坊 · 公众号 · · 2025-02-05 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：FoundationStereo: Zero-Shot Stereo Matching

作者：Bowen Wen, Matthew Trepte, Joseph Aribido, Jan Kautz, Orazio Gallo, Stan Birchfield

机构：NVIDIA

原文链接：https://arxiv.org/abs/2501.09898

代码链接：https://github.com/NVlabs/FoundationStereo/tree/master

1. 导读

在深度立体匹配方面取得了巨大的进展，通过每个域的微调，在基准数据集上表现出色。然而，对于立体匹配来说，实现强大的零镜头泛化(这是其他计算机视觉任务中基础模型的一个标志)仍然具有挑战性。我们介绍了FoundationStereo，这是一个用于立体深度估计的基础模型，旨在实现强零镜头泛化。为此，我们首先构建了一个大规模(1M立体对)的合成训练数据集，其特征是大多样性和高真实感，随后是一个自动自固化管道，以去除模糊样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它采用来自vision foundation模型的丰富的单目先验来缩小sim-to-real差距，以及用于有效成本体积过滤的远程上下文推理。这些组件共同带来跨领域的强大鲁棒性和准确性，建立了零炮立体深度估计的新标准。

2. 效果展示

在野外图像上的零样本预测。我们的方法适用于各种场景(室内/室外)、具有挑战性属性的物体(无纹理/反射/半透明/薄结构)、复杂的照明(阴影曝光)、各种视角和感知范围。

提交时在ETH 3D排名第一

我们与SOTA单目度量深度估计方法进行比较。尽管他们最近取得了进步，我们的仍然产生最精确的公制比例点云。

用于训练立体算法的合成数据集(不包括无法获取地面真实值的测试图像)。我们的数据集包括不同的内在属性和基线。

3. 方法

ST)将来自冻结的DepthAnvthingV2的丰富单目先验数据进行调整，同时结合多级CNN的细粒度高频特征进行一元特征提取。细心的混合成本滤波(AHCF)结合了轴平面卷积(APC)滤波和视差变换(disparity Transformer，DT)模块的优点，在4D混合成本体上有效地聚集了沿空间和视差维度的特征。然后根据过滤后的成本量预测初始差异，然后通过GRU块进行细化。在每次细化步骤中，使用最新的差异来查找来自过滤后的混合成本体积和关联体积的特征，以指导下一次细化。迭代细化的差异成为最终输出。推荐课程：国内首个基于面结构光的高反射物体重建方法课程（相位偏折术）。

左图:STA模块的设计选择。右图:拟议的STA和AHCF模块的效果。“W/STA”仅使用CNN提取特征。“W/0 AHCF”使用基于3DCNN的传统网络进行成本体积滤波。结果是通过零样本推理获得的，无需对目标数据集进行微调。STA利用丰富的单目先验知识，可靠地预测光照不一致和暗吉他音孔的区域。AHCF有效地聚合了空间和长距离的视差上下文，以准确预测薄重复结构。

4. 实验结果

5. 总结 & 未来工作

我们引入了FoundationStereo，这是一个用于立体深度估计的基础模型，能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著，但我们的方法并非没有局限性。首先，我们的模型尚未针对效率进行优化，在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和剪枝技术应用于其他视觉基础模型。其次，我们的数据集FSD包含有限的透明对象集合。通过在训练期间增加更多种类的完全透明对象，可以进一步增强鲁棒性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、