点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
编辑:3DCV
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
3D视觉最新模组
、
3DGS系列(视频+文档)
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
深度估计是 3D 视觉中的一项基本任务,在许多下游任务中具有重要的应用。与多视立体相比,单图像深度估计因其成本效益和易于部署而受到广泛关注。由于缺乏跨多视图的几何约束,从单张图像估计深度是一个不适定问题。因此,传统方法严重依赖手工特征来学习几何先验。为了解决这个问题,一系列基于深度学习的方法被提出,大致可以分为相对深度估计和度量深度估计方法。相对深度估计方法旨在推断场景中对象之间的相对深度关系,该关系与场景尺度无关,例如Marigold和Depth anything。然而,仅估计相对深度可能难以解决复杂的现实应用,例如机器人抓取和避障。因此,度量深度估计方法在近年来获得了许多的关注。这类方法通常在单个数据集上进行训练,忽略了具有显着尺度差异的场景,导致在不同深度范围的场景中难以泛化,例如直接从室内推广到室外。
为了解决这个问题,本文总结了两个需要进一步考虑的关键点。(1)不同类别的场景通常在深度范围上表现出较大的差异,而同一类别的场景通常具有较小的差异。如果可以显式地对场景的比例进行建模,则模型只需要专注于推断相对深度关系。然而,仅仅依靠场景类别信息来推断尺度是不够的,因为它还受到场景自身结构的影响。因此,考虑每个场景的结构和语义信息对于尺度预测至关重要。(2)在某个场景中,即使是同一类别的物体放置在不同位置也可能具有不同的深度。因此,聚合来自深度相关区域的特征可以有利于局部结构建模和相对深度关系的推断。
基于以上分析,本文提出了一种新颖的度量深度估计方法,通过将度量深度估计任务分解为尺度预测和相对深度估计两个部分,在统一的框架下实现准确的室内室外度量深度估计。该框架主要由语义感知的尺度预测模块和场景自适应的相对深度估计模块组成。在语义感知的尺度预测模块中,本文设计了用于尺度预测的scale query,并利用文本图像特征相似性来施加语义约束。在场景自适应的相对深度估计模块中,本文采用一组bin query来聚合深度相关区域中的特征,并以分类回归方式预测相对深度图。最后,度量深度图可以由相对深度图乘以尺度因子得到。实验表明,我们的模型在室内和室外深度估计基准上达到了先进的水平,并在零样本评估中表现出了令人满意的泛化能力。
1. 论文信息
标题:
ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
作者:
Ruijie Zhu, Chuxin Wang, Ziyang Song, Li Liu, Tianzhu Zhang, Yongdong Zhang
机构:
University of Science and Technology of China
原文链接:
https://arxiv.org/abs/2407.08187
代码链接:
https://github.com/RuijieZhu94/mmdepth/tree/main/projects/ScaleDepth
项目主页:
https://ruijiezhu94.github.io/ScaleDepth
2. 摘要
估计单个图像的深度是一项具有挑战性的视觉任务。与相对深度估计相比,度量深度估计因其实际物理意义和在现实生活场景中的关键应用而受到更多关注。然而,现有的度量深度估计方法通常在具有相似场景的单一数据集上进行训练,在具有显着尺度变化的场景不能很好的泛化。为了应对这一挑战,我们提出了一种称为 ScaleDepth 的单目深度估计方法,将度量深度分解为场景尺度和相对深度,并分别通过语义感知的尺度预测模块和场景自适应的相对深度估计模块来预测它们。所提出的 ScaleDepth 有几个优点。首先,语义感知的尺度预测模块模块可以隐式地结合图像的结构和语义特征来预测精确的场景尺度。其次,场景自适应的相对深度估计模块模块可以自适应地估计归一化深度空间内每个图像的相对深度分布。最后,我们的方法在统一的框架中实现了室内和室外场景的度量深度估计。实验表明,我们的方法在室内、室外、无约束和未见的场景中都达到了先进的性能。
3. 效果展示
仅使用NYU和KITTI数据集训练模型,ScaleDepth在室内和室外场景均显著优于现有的方法。
在未见的8个尺度差异较大的深度数据集零样本泛化,ScaleDepth也可以较为准确的估计场景的深度。
4. 基本原理是啥?
如图所示,我们的方法主要由语义感知的尺度预测模块和场景自适应的相对深度估计模块组成。给定输入的RGB图像,我们首先通过 CLIP 图像编码器提取多级图像特征。在像素解码器中,我们将图像特征投影并展平为多尺度的特征向量,然后将其送到Transformer层以与query交互。为了将度量深度估计分解为尺度预测和 相对深度估计,我们设计了两组object query。第一组称为scale query,对应于尺度预测,而另一个称为 bin query,对应于相对深度估计。在 Transformer 层中,我们采用Mask attention来令特征充分交互,以获取更新后的query。随后,更新后的scale query和bin query分别通过语义感知的尺度预测模块模块和场景自适应的相对深度估计模块,分别生成尺度因子和相对深度图。最后,通过直接将尺度因子和相对深度图相乘获得度量深度图。在训练期间,我们采用冻结的CLIP文本编码器分支作为尺度预测模块的辅助监督。在推理期间,我们不需要该分支从而避免依赖文本信息的输入。
5. 实验结果
我们在表 I 中展示了 NYU-Depth V2 数据集的室内评估结果。所提出的 ScaleDepth-N 模型的参数量远比基于扩散模型的方法(如 VPD)少,并显着优于其他最先进的方法。在图 4 中,我们可视化模型 ScaleDepth-N 的深度图和误差图,以提供与其他方法的定性比较。定性结果强调,我们的方法在全局结构和局部细节上都显着优于其他最先进的方法。
表 II 报告了室外基准 KITTI 的定量结果。我们还可视化了模型 ScaleDepth-K 的定性结果,并将其与最先进的方法进行比较,我们的模型明显优于最先进的方法。
从室内到室外环境的无约束场景中的巨大尺度变化对当前的度量深度估计模型提出了巨大的挑战。按照 Zoedepth 的实验设置,我们在室内和室内数据集共同训练我们的模型。如表 III 所示,我们的方法比最先进的方法 ZoeDepth-X-NK 提高了 23.1%。
为了证明我们模型的泛化能力,我们报告了八个未见过的数据集的零样本评估结果,如表V和表VI所示。相同实验设置下,我们的模型在八个未见过的数据集上显着优于现有方法,展示了其强大的零样本泛化能力。我们还提供了如图 8 和图 9 所示的定性结果,并与最先进的方法 ZoeD-M12-NK 进行比较。
6. 总结 & 未来工作
在这项工作中,我们提出了一种新颖的度量深度估计方法 ScaleDepth,它将度量深度估计分解为尺度预测和相对深度估计。针对这两个任务我们精心设计了两个模块,从而在统一的框架中实现了室内和室外深度估计。四种实验设置下的广泛结果证明了该方法的优越性。在未来的工作中,我们希望探索一种通用的度量深度估计框架,它可以在开放词汇的设置下预测准确的度量深度。
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉技术星球
3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、
无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划