0. 论文信息
标题:DepthLab: From Partial to Complete
作者:Zhiheng Liu, Ka Leong Cheng, Qiuyu Wang, Shuzhe Wang, Hao Ouyang, Bin Tan, Kai Zhu, Yujun Shen, Qifeng Chen, Ping Luo
机构:HKU、HKUST、Ant Group、Aalto University、Tongyi Lab
原文链接:https://arxiv.org/abs/2412.18153
代码链接:https://johanan528.github.io/depthlab_web/
1. 导读
缺失值仍然是深度数据在广泛应用中面临的一个常见挑战,它源于各种原因,如数据采集不完整和视角改变。这项工作通过深度实验室弥合了这一差距,深度实验室是一个由图像扩散先验支持的基础深度修复模型。我们的模型具有两个显著的优势:(1)它展示了对深度不足区域的弹性,为连续区域和孤立点提供了可靠的完整性;(2)当填充缺失值时,它忠实地保持了与条件已知深度的比例一致性。利用这些优势,我们的方法证明了它在各种下游任务中的价值,包括3D场景修复、文本到3D场景生成、使用DUST3R的稀疏视图重建和激光雷达深度完成,在数值性能和视觉质量方面都超过了当前的解决方案。
2. 效果展示
在第二列中,黑色表示已知区域,而白色表示预测区域。值得注意的是,为了强调对比,我们将已知的真实深度重新附加到深度图右侧可视化中的相应位置。其他方法表现出几何不一致性。
3D高斯修复
:
在3D场景中,我们首先从设定的参考视图中修复图像修复区域的深度,然后将这些点解投影到3D空间中进行优化初始化,这显著提高了3D场景修复的质量和速度。
文本到场景生成:
我们的方法通过消除对对准的需要,实质上改进了从单个图像生成3D场景的过程。这一进步有效地减轻了以前由几何不一致引起的边缘分离问题。
推荐课程:
为什么说colmap仍然是三维重建的核心?
基于DUST3R的稀疏视图高斯重建
我们的方法首先为没有来自任何源图像的匹配的像素生成掩模。然后通过深度实验室对这些不匹配的区域进行提炼。我们的方法有效地锐化了来自DUST3R的初始深度,显著地提高了高斯分布绘制的质量。
稀疏深度补全:
与在单个数据集上训练和测试的现有方法(如NYUv2)不同,我们的方法在零触发设置下获得了相当的结果,并且可以通过最少的微调提供甚至更好的结果。
3. 方法
我们对真实深度应用随机掩蔽来创建掩蔽深度,然后进行插值。内插的掩蔽深度和原始深度在被馈送到编码器之前都经历随机比例归一化。参考U-Net提取RGB特征,而估计U-Net将噪声深度、屏蔽深度和编码屏蔽作为输入。逐层特征融合允许更细粒度的视觉引导,即使在大的或复杂的掩蔽区域也能实现高质量的深度预测。
4. 未来工作的讨论
首先,我们旨在讨论我们的模型可以应用的潜在下游任务,如4D场景生成或重建,机器人导航,VR/AR中的编辑,以及一系列与DUST3R相关的工作。总之,任何需要具有固有已知信息的深度估计的任务(通过渲染或传感器获得的部分地面真相,或来自改变的相机姿态的扭曲深度)能够利用我们的模型进行更精确的深度估计,从而增强结果。
接下来,我们认为还有一些可能的进一步研究方向:
如何加速整个估算过程,例如使用LCM或流匹配技术。
这样的思路可以应用到常态估计吗?
如果相机姿态信息也合并到模型中,它可能会增强模型在与视点变换相关的场景中的性能吗?
我们的核心思想是利用已知信息实现更好的深度估计,这在视频深度估计中甚至更为关键。这是因为相邻帧之间有大量的近似信息。因此,问题出现了:我们如何设计一个视频深度估计模型,利用相邻帧之间的已知信息来增强时间一致性?
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门