专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
中国建材集团  ·  好材料大拜年 | 中材智科:科技联动 ... ·  昨天  
中国建材集团  ·  好材料大拜年 | 中材智科:科技联动 ... ·  昨天  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  2 天前  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

精度提高60%!加速3倍!中科大新作:使用结构光进行深度估计

计算机视觉工坊  · 公众号  ·  · 2025-01-18 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Matching Free Depth Recovery from Structured Light

作者:Zhuohang Yu, Kai Wang, Juyong Zhang

机构:University of Science and Technology of China、China Unicom

原文链接:https://arxiv.org/abs/2501.07113

1. 导读

我们提出了一种从结构光系统捕获的图像进行深度估计的新方法。与以往许多依赖于图像匹配过程的方法不同,我们的方法使用密度体素网格来表示场景几何,这是通过自我监督的可微分体绘制来训练的。我们的方法在渲染过程中利用了从结构光系统中的投影图案得到的颜色场,实现了几何场的独立优化。这有助于更快的收敛和高质量的输出。此外,我们整合了标准化设备坐标(NDC)、失真损失和一种新颖的基于表面的颜色损失,以增强几何保真度。实验结果表明,我们的方法在几何性能方面优于现有的基于匹配的技术,在合成场景上实现了大约60%的平均估计深度误差减少,在真实世界捕获的场景上实现了大约30%的平均估计深度误差减少。此外,我们的方法提供了快速训练,其速度比以前采用隐式表示的无匹配方法快大约三倍。

2. 效果展示

单目结构光系统的示意图。深度由相机和投影仪之间的像素对应计算得出。这些对应通常通过图像匹配算法计算得出。

通过不同方法对合成和真实场景估计深度和误差图的可视化。估计结果与地面真实值之间的差异差异显示在第二和第四行。

3. 方法

传统的基于匹配的方法试图定义一个函数,该函数使用估计的点对点对应关系直接计算深度图。相比之下我们引入了一个新颖的无需匹配的框架,如图2所示,首先,我们构建一个密度体素网格来存储输入场景的几何信息。接下来,进行可导的体绘制过程以生成相机观察到的图像。最后,使用多个损失函数来训练网络,以比较渲染图像和捕获图像。 推荐课程: 如何从零搭建一套结构光3D重建系统?

4. 实验结果

5. 总结 & 未来工作

本文提出了一种使用三维体素网格进行结构光系统深度重建的新框架。我们的方法集中在训练一个密度体素网格以表示捕获场景的几何形状上,利用投影模式的约束来引导训练过程通过一个完全可导的渲染过程。在收敛后,我们使用从训练体素网格中查询的体积密度通过类似的渲染方法来获得深度图。我们方法的关键优势在于它消除了对传统图像匹配算法准确性的依赖,从而消除了对图像匹配算法准确性的依赖。实验结果表明,与传统的基于匹配的算法相比,我们的方法在使用相同或更少的模式时,获得了有竞争力的结果。当比较类似的基于渲染的方法,使用隐函数来表示几何形状,我们的方法表现出优越的深度估计精度,同时具有更快的训练速度。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组







请到「今天看啥」查看全文