专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
爱可可-爱生活  ·  【[1k星]kro-run/kro:Kube ... ·  12 小时前  
爱可可-爱生活  ·  【[15.3k星]PandasAI:用自然语 ... ·  16 小时前  
爱可可-爱生活  ·  【HunyuanVideo-Training ... ·  2 天前  
爱可可-爱生活  ·  【BioEmu:用深度学习模拟蛋白质平衡构象 ... ·  3 天前  
爱可可-爱生活  ·  【[122星]funtrace:一款为C/C ... ·  3 天前  
51好读  ›  专栏  ›  3DCV

兼容任意相机!博世 & CMU开源Zero-Shot深度估计新SOTA!

3DCV  · 公众号  ·  · 2025-01-19 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera

作者:Yuliang Guo, Sparsh Garg, S. Mahdi H. Miangoleh, Xinyu Huang, Liu Ren

机构1Bosch Research North America、Carnegie Mellon University、Simon Fraser University

原文链接:https://arxiv.org/abs/2501.02464

代码链接:https://github.com/yuliangguo/depth_any_camera

1. 导读

虽然最近的深度估计方法表现出很强的零镜头泛化能力,但在不同类型的相机上实现精确的度量深度仍然是一个重大挑战,特别是那些具有大视场(FoV)的相机,如鱼眼和360度相机。本文介绍了深度任意相机(DAC),这是一个强大的零拍摄度量深度估计框架,它扩展了透视训练模型,以有效地处理具有不同FOV的相机。该框架旨在确保可以利用所有现有的3D数据,而不管新应用中使用的具体相机类型。值得注意的是,DAC专门针对透视图像进行训练,但可以无缝推广到鱼眼和360度相机,而无需专门的训练数据。DAC采用等矩形投影(ERP)作为统一的图像表示,能够对具有不同FOV的图像进行一致的处理。它的关键组件包括一个俯仰感知图像到ERP的转换,用于ERP空间中的高效在线增强,一个FoV对齐操作,用于支持跨各种FoV的有效训练,以及多分辨率数据增强,用于解决训练和测试之间的分辨率差异。DAC实现了最先进的零炮度量深度估计,提高了delta-1(δ1)与之前的公制深度基础模型相比,在多个鱼眼和360度数据集上的精度高达50%,证明了跨相机类型的稳健泛化。

2. 效果展示

Depth Any Camera (DAC) 是一个强大的零样本深度估计框架,可以将一个透视训练模型扩展到处理任何类型的相机,有效地处理各种FoV。值得注意的是,DAC 可以 专门在透视图像上进行训练 ,但它无缝地推广到 鱼眼 和 360 摄像头,无需专业训练数据。

深度任意相机(DAC)的零拍摄公制深度估计结果在ScanNet++鱼眼视频上可视化,并与Metric3D-v2进行比较。相对于真实情况的相对误差的可视化突出了DAC的优越性能。此外,我们展示了DAC在360度图像上的应用,其中深度估计的单次正向传递实现了完整的3D场景重建。

3. 方法

我们的DAC框架将来自任何相机类型的数据转换到规范的ERP空间,允许在透视图像上训练的模型在一致的空间中处理大FoV测试数据,以进行度量深度推断。在培训期间,开发了一种有效的图像到ERP的转换,以便能够直接在ERP空间中进行在线数据扩充,这是一种广泛证明对透视图像有效的方法。通过提议的FoV-Align过程,高度变化的FoV数据适应于单个预定义的ERP补丁大小,从而最大化训练效率。在推断过程中,可以将来自任何相机类型的图像转换到ERP空间以进行度量深度估计,并且可以选择将ERP输出映射回原始图像空间以进行可视化。 推荐课程: 单目深度估计方法:算法梳理与代码实现

4. 实验结果

5. 总结 & 未来工作

(DAC)框架,用我们引入了Depth AnyCamera于在各种摄像头类型(包括透视、鱼眼和360°摄像头)上进行零样本度量深度估计。通过利用高度有效的俯仰角感知lmage-to-ERP转换、视场角对齐和多分辨率训练,DAC解决了因视场角和分辨率不-致而带来的挑战,并在大视场角数据集上实现了稳健的泛化。我们的结果表明,DAC显著优于最先进的方法,并能无缝适应不同的骨干网络。在实践中,无论新应用中使用何种相机类型,DAC都能确保之前收集的每一张3D数据都保持有价值。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码







请到「今天看啥」查看全文