专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

超越Depth Anything V2！中科大新作DepthMaster：驯服单目深度估计！

计算机视觉工坊 · 公众号 · · 2025-01-09 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

作者：Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

机构：University of Science and Technology of China、vivo Mobile Communication Co., Ltd.

原文链接：https://arxiv.org/abs/2501.02576

代码链接：https://indu1ge.github.io/DepthMaster_page

1. 导读

扩散去噪范式中的单目深度估计表现出令人印象深刻的泛化能力，但推理速度较低。最近的方法采用单步确定性范式来提高推理效率，同时保持可比的性能。然而，它们忽略了生成特征和区别特征之间的差距，导致了次优的结果。在这项工作中，我们提出了DepthMaster，一个单步扩散模型，旨在适应生成特征的判别深度估计任务。首先，为了减轻由生成特征引入的对纹理细节的过度拟合，我们提出了一个特征对齐模块，该模块结合了高质量的语义特征以增强去噪网络的表示能力。第二，为了解决单步确定性框架中缺乏细粒度细节的问题，我们提出了一个傅立叶增强模块来自适应地平衡低频结构和高频细节。我们采用两阶段培训策略，以充分发挥两个模块的潜力。在第一阶段，我们利用特征对齐模块学习全局场景结构，而在第二阶段，我们利用傅立叶增强模块来提高视觉质量。通过这些努力，我们的模型在泛化和细节保持方面达到了最先进的性能，在各种数据集上优于其他基于扩散的方法。

2. 效果展示

不同范式的可视化。“去噪”是指以扩散-去噪的方式预测深度。由于去噪网络的特征表示能力有限，预测往往过度拟合纹理细节，而忽略了真实结构，如第3列中的黄色方框所示。“stage!”通过特征对齐模块缓解了这个问题，但由于去除了迭代过程，输出变得模糊，如第4列中的红色方框所示。“Stage2”展示了最终通过傅里叶增强模块微调的模型，表现出优秀的泛化能力和精细的纹理细节。

在不同数据集上与零样本单目深度估计方法的定性比较。我们的模型展示了出色的细节保持和结构捕获能力。得益干特征对齐模块，我们的模型避免了过度拟合纹理。

3. 方法

我们提出了DepthMaster，这是一种定制扩散模型中的生成特征以适应区分性深度估计任务的方法。我们引入了一个特征对齐模块来减轻高质量外部特征对纹理细节的过度拟合，并引入了一个傅立叶增强模块来细化频域中的细粒度细节。

4. 实验结果

表I展示了我们的方法与其他最先进（SOTA）的零样本单目深度估计方法的比较。表格的上半部分列出了数据驱动方法，而下半部分则侧重于基于扩散模型的方法。如表I所示，尽管基于扩散模型的方法仅使用了相对较少的数据进行训练，但其性能已经超过了许多依赖大规模数据集的方法。这凸显了扩散模型中编码的强图像先验的重要作用，这些先验极大地增强了深度估计模型的泛化能力。我们的方法属于基于扩散模型的类别。通过结合单步确定性范式和专门设计的特征对齐模块，我们在KITTI数据集上的AbsRel指标上相对于Marigold [16]实现了17.2%的提升，有效缩小了基于扩散模型的方法与依赖大规模数据集的方法之间的性能差距。推荐课程：单目深度估计方法：算法梳理与代码实现。

5. 总结

在本研究中，我们提出了DepthMaster，一种为深度估计构建扩散模型的方法。通过融入特征对齐模块，我们有效地缓解了模型对纹理细节的过拟合问题。此外，傅里叶增强模块通过在频域内操作，增强了细粒度细节保留能力。得益于精心的设计，DepthMaster在零样本性能和推理效率方面实现了显著提升。大量实验验证了我们方法的有效性，该方法在泛化和细节保留方面达到了最先进的性能，在各种数据集上均优于其他基于扩散的方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、