专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
51好读  ›  专栏  ›  3DCV

TD-NeRF:实现神经辐射场和相机姿态联合优化

3DCV  · 公众号  ·  · 2024-05-15 20:51

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

大家好,3DCV今天给大家分享一种名为TD-NeRF的新方法,用于同时优化相机姿态和神经辐射场。如果您有相关工作需要分享,请联系cv3d008

0. 读者个人理解

这篇文章提出了一种名为TD-NeRF的新方法,用于同时优化相机姿态和神经辐射场。其主要创新点包括:1) 提出了基于截断正态分布的深度先验采样策略,加速了姿态估计的收敛速度;2) 引入了从粗到精的训练策略,改善了深度几何的精度;3) 提出了基于高斯核函数的帧间点云约束,增强了深度噪声的鲁棒性。实验结果表明,TD-NeRF在相机姿态和NeRF的联合优化中取得了优异的性能,优于先前的方法,并且生成了更精确的深度几何。

1. 论文信息

标题: TD-NeRF: Novel Truncated Depth Prior for Joint Camera Pose and Neural Radiance Field Optimization
作者:Zhen Tan等人
链接:
https://arxiv.org/pdf/2405.07027

2. 方法概述

如图所示,输入是未配准的RGB图像。首先使用预训练的单目深度网络对RGB图像进行处理,以获得深度先验信息。基于深度先验信息,使用截断正态分布对每个像素的射线进行采样,并采用从粗到细的训练策略进行优化。采样点输入到多层感知机网络中,以估计颜色c和密度σ。利用颜色c和密度σ进行体积渲染,生成RGB和深度图像。通过监督深度和RGB来优化辐射场。引入深度信息计算帧间点云约束和投影损失,为帧间姿态优化和精炼提供约束。

TDBS :提出了一种基于截断正态分布的采样策略TDBS,利用单目深度网络估计的深度图进行指导采样。此外,还提出了由粗到细的训练策略,避免模型陷入局部最优解。

GPC :引入了基于高斯核函数的帧间点云约束,以增强对深度噪声的鲁棒性。

Reprojection Loss :定义了基于点云的投影损失,以约束帧间姿态。

Overall Training Loss :整合了各损失项,形成了完整的训练损失函数。

3.实验

  1. 实验设置 :对三个数据集(LLFF、Tanks and Temples、BLEFF)进行了实验,并使用了多个评价指标(如PSNR、SSIM、LPIPS等)来评估方法的性能。
  2. 结果展示 :展示了一系列实验结果,包括视觉效果和定量指标,以证明方法的有效性。具体来说,该方法在相机姿态估计和新视角合成质量方面取得了显著的提升。
  3. Ablation study :对方法中的不同组件进行了Ablation study,以证明每个组件的作用和重要性。结果显示了TDBS策略和GPC的重要性。

4. 总结

依赖准确的相机姿态是广泛部署神经辐射场(NeRF)模型进行3D重建和SLAM任务的一个重大障碍。现有方法引入了单目深度先验来联合优化相机姿态和NeRF,但这并没有充分利用深度先验,忽略了它们固有的噪声影响。在本文中,我们提出了截断深度NeRF(TD-NeRF),这是一种新颖的方法,它可以通过联合优化辐射场的可学习参数和相机姿态,从未知相机姿态训练NeRF。我们的方法通过三个关键进展明确利用单目深度先验:1)我们提出了一个基于截断正态分布的新颖深度基于射线采样策略,这提高了姿态估计的收敛速度和准确性;2)为了避开局部最小值并细化深度几何,我们引入了一个由粗到细的训练策略,逐步提高深度精度;3)我们提出了一个更健壮的帧间点约束,这增强了训练过程中对深度噪声的鲁棒性。在三个数据集上的实验结果表明,TD-NeRF在相机姿态和NeRF的联合优化中取得了优越的性能,超越了先前的工作,并生成了更准确的深度几何。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网: www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、







请到「今天看啥」查看全文