0. 论文信息
标题:Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
作者:Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
机构:Zhejiang University、ByteDance Seed、Shanghai Jiao Tong University、ETH Zurich
原文链接:https://arxiv.org/abs/2412.14015
代码链接:https://promptda.github.io/
1. 导读
提示在为特定任务释放语言和vision foundation模型的能力方面发挥着关键作用。我们第一次将提示引入深度基础模型,创建了一个称为提示深度任何东西的度量深度估计的新范例。具体来说,我们使用低成本激光雷达作为提示来引导深度任意模型,以获得精确的公制深度输出,实现高达4K的分辨率。我们的方法以一个简洁的即时融合设计为中心,该设计在深度解码器中集成了多尺度的激光雷达。为了解决包含激光雷达深度和精确GT深度的有限数据集所带来的训练挑战,我们提出了一种可扩展的数据管道,包括合成数据激光雷达模拟和真实数据伪GT深度生成。我们的方法在ARKitScenes和ScanNet++数据集上建立了新的艺术状态,并使下游应用受益,包括3D重建和广义机器人抓取。
2. 引言
高质量深度感知是计算机视觉和机器人领域的一项基本挑战。近年来,通过扩展模型或数据规模,单目深度估计技术取得了显著飞跃,从而推动了深度基础模型的蓬勃发展。这些模型在生成高质量相对深度方面表现出强大的能力,但存在尺度模糊问题,阻碍了它们在自动驾驶和机器人操作等实际应用中的推广。因此,人们已投入大量精力来实现度量深度估计,方法包括在度量数据集上对深度基础模型进行微调,或训练以图像固有属性为额外输入的度量深度模型。然而,这两种方法都未能妥善解决问题。
由此产生了一个自然的问题:这些基础模型在精确度量深度估计方面真的缺乏实用性吗?
这促使我们仔细审视自然语言和视觉领域的基础模型,这些模型通常涉及预训练和指令调优阶段。一个设计得当的提示和指令数据集能够解锁基础模型在下游任务上的潜力。受这些成功案例的启发,我们将度量深度估计视为一个下游任务,提出了一种新的范式,即通过度量信息提示深度基础模型。我们认为,只要提供尺度信息,提示可以采用任何形式,例如相机固有属性。
在本文中,我们选择低成本激光雷达作为提示来验证该范式的可行性,原因有二。首先,它提供了精确的度量尺度信息。其次,它广泛可用,甚至在普通移动设备中也不例外(例如,Apple iPhone配备了激光雷达)。
具体而言,基于Depth Anything,我们提出了Prompt Depth Anything,它实现了4K分辨率的精确度量深度估计。我们方法的核心是一个专为基于DPT的深度基础模型量身定制的简洁提示融合架构。该提示融合架构在DPT解码器内部将激光雷达深度信息在多尺度上进行融合,以进行深度解码。度量提示提供了精确的空间距离信息,使深度基础模型特别适合作为局部形状学习者,从而实现精确且高分辨率的度量深度估计。
训练Prompt Depth Anything需要激光雷达深度和精确的地面真实(GT)深度。然而,现有的合成数据缺乏激光雷达深度,而现实世界数据中带有激光雷达的数据仅具有边缘不清晰的不精确GT深度。为了解决这一挑战,我们提出了一种可扩展的数据管道,该管道为合成数据模拟了低分辨率、带噪声的激光雷达,并使用重建方法为真实数据生成了具有高质量边缘的伪GT深度。为了减轻从三维重建得到的伪GT深度中的误差,我们引入了一种边缘感知深度损失,该损失仅利用伪GT深度的梯度(在边缘处尤为显著)。我们通过实验证明,这些努力实现了高度准确的深度估计。
推荐课程:
彻底搞懂大模型数学基础剖析、原理与代码讲解
。
我们在包含iPhone ARKit深度的ARKitScenes和ScanNet++数据集上评估了所提出的方法。它在数据集和指标上始终表现出最先进的性能。即使我们的零样本模型在非零样本测试中也比其他方法表现更好,这突出了通过提示基础模型来提高泛化能力的优势。我们还展示了Prompt Depth Anything的基础模型和提示可以分别替换为DepthPro和车辆激光雷达。此外,我们还证明了它有利于包括三维重建和通用机器人物体抓取在内的多个下游应用。
3. 效果展示
Prompt Depth Anything的示意图和功能。(a)Prompt Depth Anything是一种新的度量深度估计范式,它被表述为使用度量提示来提示深度基础模型,特别是利用低成本激光雷达作为提示。(b)我们的方法能够实现一致的深度估计,解决了Metric3D v2的局限性。(c)它实现了精确的4K精确深度估计,远远超过了ARKitLiDAR深度(240x320)。
与最先进的“Metric3D v2”和“Depth Any”进行定性比较。v2”是用ARKit深度进行比例偏移校正的。粉色方框表示GT深度和深度百分比误差图,其中红色表示高误差,蓝色表示低误差。
TSDF重建结果。
4. 主要贡献
本文的工作有以下贡献:
• Prompt Depth Anything,一种通过以低成本激光雷达作为度量提示来提示深度基础模型的新度量深度估计范式。
• 针对深度基础模型的简洁提示融合架构、可扩展数据管道和边缘感知深度损失,用于训练Prompt Depth Anything。
• 在深度估计基准测试上表现出最先进的性能,展示了替换深度基础模型和激光雷达传感器的可扩展性,并突出了包括三维重建和机器人物体抓取在内的多个下游应用的优势。
5. 方法
大规模数据训练的单目深度估计模型因具有泛化能力而成为深度基础模型。然而,由于固有的模糊性,它们无法实现高精度度量深度估计。受视觉和语言基础模型提示成功的启发,我们提出了Prompt Depth Anything,通过度量提示来提示深度基础模型,以实现度量深度估计。在本文中,我们采用低成本激光雷达作为度量提示,因为最近它已被大量智能手机集成,使得这种设置极具实用性。具体而言,我们的目标是提示深度基础模型释放其潜力,以实现精确的度量深度估计。
6. 实验结果
我们将本文方法与当前两类最优的深度估计方法(SOTA)进行了对比:单目深度估计(MDE)和深度补全/上采样。对于MDE方法,我们将本文方法与Metric3D v2、ZoeDepth、DepthPro、Depth Anything v1和v2(简称DepthAny. v1和v2)、Marigold和Lotus进行了比较。对于深度补全/上采样方法,我们将本文方法与BPNet [59、Depth Prompting(简称D.P.)、MSPF进行了比较。为了与MDE方法进行公平比较,我们使用RANSAC对齐方法将它们的预测结果与ARKit LiDAR深度进行了对齐。根据方法是否在训练期间见过测试数据类型,我们将方法分为两类:零样本(zero-shot)和非零样本(non-zero-shot)。我们使用仅包含HyperSim训练集的数据训练了一个Ourssyn模型,以便与零样本方法进行比较。
如表1和表2,本文方法始终优于现有方法。值得注意的是,Ourssyn在ScanNet++上的表现优于所有非零样本模型,凸显了提示深度基础模型(prompting a depth foundation model)的泛化能力。
7. 总结 & 未来工作
本文为度量深度估计引入了一种新范式,即通过度量信息提示深度基础模型。我们通过选择低成本的LiDAR深度作为提示,验证了该范式的可行性。本文提出了一种可扩展的数据管道,用于生成合成LiDAR深度和伪真实值(GT)深度以进行训练。大量实验证明,本文方法在现有单目深度估计和深度补全/上采样方法中具有优越性。此外,我们还证明了该方法对包括三维重建和通用机器人抓取在内的下游任务有益。
局限性与未来工作。本研究存在一些已知的局限性。例如,当使用iPhone LiDAR作为提示时,它无法处理远距离深度,因为iPhone LiDAR对于远距离物体的深度检测噪声很大。此外,我们还观察到LiDAR深度存在一些时间闪烁现象,导致深度预测结果也出现闪烁。在未来的工作中,可以通过考虑更先进的提示学习技术来扩展有效范围和时间提示调整,从而解决这些问题。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球