专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
湖北经视  ·  武汉樱花开了!颜值最高的盛花期就在…… ·  2 天前  
CFC农产品研究  ·  【妙笔花生】22年行情能否复刻? ·  4 天前  
51好读  ›  专栏  ›  3DCV

SfM即将淘汰?NeRF加入位姿估计,反光、弱纹理、精细结构全解决!

3DCV  · 公众号  ·  · 2024-06-05 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

0.这篇文章干了啥?

这篇文章评估了使用NeRF(神经辐射场)进行工业机器人应用中的新视角合成的潜力。作者使用工业机器人末端执行器上的相机捕获输入图像,并根据机器人的运动学确定了准确的相机姿态。他们的数据集包含了工业应用中的典型挑战,如反射物体、贫乏的纹理和精细结构,这使他们能够探索使用SfM(结构光束法)来确定相机姿态的传统方法的局限性。通过实验,作者发现在进行了仔细的校准并使用准确的机器人时,这种方法可以达到与传统方法相媲美的质量。然而,与传统方法相比,他们的方法更为稳健,NeRF渲染的图像质量更为一致。此外,作者的方法能够以度量尺度确定相机姿态,这有利于后续需要度量信息的步骤。作者还量化了渲染图像的不确定性,并发现集合方法在某些情况下可能过于自信。最后,作者还探讨了NeRF在未见过的视角生成方面的潜力,并计划将研究扩展到3D场景或对象重建任务,并考虑将方法应用于热图像领域。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:Novel View Synthesis with Neural Radiance Fields for Industrial Robot Applications

作者:Markus Hillemann, Robert Langendorfer等

作者机构:Karlsruhe Institute of Technology等

论文链接:https://arxiv.org/pdf/2405.04345

2. 摘要

神经辐射场(NeRFs)已成为一个快速发展的研究领域,具有革新典型摄影测量工作流程(例如用于3D场景重建)的潜力。NeRFs 需要多视图图像及其对应的相机位姿和内部参数作为输入。在典型的 NeRF 工作流程中,相机位姿和内部参数通常通过结构光束(SfM)预先估计。但是,结果新视图的质量很难预测,因为它取决于多种参数,例如可用图像的数量和分布、相关相机位姿和内部参数的准确性,以及所描绘场景的反射特性。此外,SfM 是一个耗时的预处理步骤,其稳健性和质量高度依赖于图像内容。而且,SfM 未定义的缩放因子会妨碍后续需要度量信息的步骤。本文评估了 NeRFs 在工业机器人应用中的潜力。首先,我们提出了一种 SfM 预处理的替代方法:使用附加在工业机器人末端执行器上的校准相机捕获输入图像,并基于机器人运动学确定具有度量尺度的准确相机位姿。然后,通过将生成的新视图与地面真实值进行比较,并计算基于集成方法的内部质量测量,来研究新视图的质量。为了进行评估,我们获取了多个具有工业应用典型重建挑战的数据集,例如反射物体、纹理差和细结构。我们表明,基于机器人位姿确定在非苛刻情况下达到了与 SfM 类似的准确性,而在更具挑战性的场景中具有明显优势。我们还报告了不同 NeRF 方法的新视图质量结果,显示了额外的在线位姿优化可能不利。最后,我们展示了在没有地面真实值的情况下,使用集成方法估计合成新视图质量的初步结果。

3. 效果展示

每个数据集的示例图像。

数据集4的COLMAP结果,即,重建的稀疏点云和估计的姿态。

数据集3的图像的3DGS机器人版本的参考视图和渲染结果。

数据集4的图像的Nerfacto—big的COLMAP版本的参考视图和渲染结果,没有姿势优化。

数据集5的图像的COLMAP和3DGS机器人版本的参考视图和渲染结果。

数据集1的图像的NeRF集合结果。

在分布外评估图像上的集合预测。

4. 主要贡献

  • 提出了一种基于机器人轨迹和NeRF的深度学习方法,用于确定相机的姿态。这种方法通过利用机器人的轨迹信息和NeRF的渲染能力,能够在具有挑战性纹理和反射属性的物体上更准确地估计相机姿态,相比传统的SfM方法具有更高的准确性。

  • 通过对比使用传统SfM方法计算的相机姿态和使用提出的方法计算的相机姿态,证明了提出方法的有效性和优越性。实验结果表明,提出的方法在合成新视图的质量和相机姿态估计的准确性方面均优于传统方法。

  • 展示了提出方法的稳健性和可靠性。通过对深度估计的不确定性进行量化分析,表明提出的方法对具有挑战性纹理和反射属性的物体具有很高的可靠性。

5. 基本原理是啥?

这篇文章的基本原理是结合机器人轨迹和NeRF(神经辐射场)的深度学习方法,用于确定相机的姿态。NeRF是一种用于合成逼真图像的深度学习模型,通过学习场景中每个点的颜色和密度来生成图像。文章利用NeRF的这种能力,结合机器人的轨迹信息,提出了一种新的方法来估计相机的姿态。具体来说,机器人通过其轨迹记录了相机在环境中的移动轨迹,这些轨迹信息与NeRF模型结合,可以更精确地估计相机在不同位置的姿态。通过这种方式,文章实现了在具有挑战性纹理和反射属性的物体上准确估计相机姿态的目标。

6. 实验结果

这篇文章的实验结果包括了对相机姿态准确性的分析以及对不同NeRF方法的评估:

  • 数据集:作者采集了三种不同的与工业相关的物体的图像,并使用相同的系统性排列的姿态对每个数据集进行评估。相机姿态在半径为0.2米的半球面上采样,相机始终指向物体的中心。采样间隔为5°,在纬度上为dlat = 5°,在经度上为dlon = 5°,高度在55°至85°之间,每个数据集有504张图像。

  • 姿态准确性:作者分析了使用COLMAP和机器人确定的相机姿态与地面真值之间的准确性。通过根均方残差(RRMS)来比较姿态的准确性,结果表明,机器人确定的姿态比COLMAP和机器人的变体要准确得多。此外,作者还比较了平均平移误差(MTE)和平均旋转误差(MRE),结果显示COLMAP和机器人相比,机器人姿态具有更高的准确性。

  • NeRF方法评估:作者评估了来自文献的不同NeRF方法在生成新视角方面的质量。评估标准包括PSNR和SSIM等指标。作者选择了Nerfacto和3DGS进行实验,结果显示3DGS在所有数据集上的PSNR和SSIM值均高于所有Nerfacto方法。此外,作者还比较了具有和不具有姿态精细化的Nerfacto方法,结果显示,精细化姿态会导致相机姿态的准确性降低。

  • NeRF集合的不确定性量化:作者使用简化的NeRF集合方法来研究使用NeRF方法生成新视角时的不确定性。实验结果表明,该方法可以有效地捕捉到在不同位置的相机视角之间存在的不确定性。

7. 总结 & 未来工作

本文评估了NeRF对工业机器人应用中的新视角合成的潜力。我们使用相机连接到工业机器人末端执行器上捕获输入图像,并基于机器人运动学确定准确的相机姿态。我们的数据集包含工业应用中的典型挑战,如反射物体、贫乏的纹理和精细结构,这使我们能够探索使用SfM确定相机姿态的传统方法的局限性。我们的实验表明,通过仔细的校准和准确的机器人,这种方法实现了与传统方法相媲美的质量。然而,我们的方法更加稳健,并且导致了NeRF渲染的图像质量始终较高,而传统方法需要有利于基于图像确定相机姿态的图像内容。此外,我们的方法以度量尺度确定相机姿态,这有利于后续需要度量信息的步骤。最后,在需要对姿态进行灵活调整时,我们的方法速度更快,这是各种应用中的关键因素。由于许多工业应用需要高度可靠性,我们进一步量化了渲染图像的不确定性。原则上,简化的集合方法为内部分布视图提供了正确的不确定性倾向,如与残差的相关性所示。然而,集合的预测标准偏差在大残差区域通常过低,表明过度自信。此外,针对姿态分布之外的实验显示,NeRF原则上能够从训练中未见的视角生成新视角。然而,这些视角在纹理和结构上显示出较少的细节,而视角相关效应如镜面反射导致大残差。这些效应没有在集合的标准偏差中被捕捉到,这展示了集合方法的局限性。在未来,我们将把我们的分析从新视角合成扩展到工业背景中的3D场景或对象重建任务。此外,我们还将研究工业应用的热领域。由于在热图像中使用SfM确定相机姿态和内部方向预计会更具挑战性,因此我们认为在例如多模态NeRF方法(Poggi et al., 2022)中应用机器人进行姿态估计的潜力更大,以便实现跨光谱场景表示和分析。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网: www.3dcver.com






请到「今天看啥」查看全文