专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

ICRA'24开源 | 10倍加速！上交&图森推动NeRF在自动驾驶的落地！

3DCV · 公众号 · · 2024-05-02 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

0. 这篇文章干了啥？

神经辐射场（NeRFs）为新视角合成铺平了一条新的道路，在各种数据集上展示了显著的结果。在处理户外场景时，广阔的景观、复杂的结构和不断变化的光照条件极大地增加了场景重建的复杂性，并且大幅增加了计算需求。

这篇文章提出了一种高效的混合场景表示，分别使用显式和隐式方法模拟NeRF中的密度和颜色。对于密度，点云提供了一个有效的初始化，大大减少了表示挑战，能够使用有限分辨率的体素网格明确地建模密度，从而消除了对多层感知器（MLP）的需求。对于渲染图像细节，保留了隐式建模的颜色MLP，以确保能够适应高度可变的真实世界。此外，提出了一种更加真实的户外场景背景和颜色分解模型，进一步提高了新颖视角合成和渲染效率的质量。对包括KITTI-360，Argoverse2和一个私有数据集在内的真实世界自动驾驶数据集进行的比较研究表明，Lightning NeRF不仅在新颖视角合成的性能方面超越了当前的最新技术，而且在训练速度上实现了五倍的改进，在渲染速度上实现了十倍的提升。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Lightning NeRF: Efficient Hybrid Scene Representation for Autonomous Driving

作者：Junyi Cao, Zhichao Li, Naiyan Wang, Chao Ma

机构：上海交通大学、图森

原文链接：https://arxiv.org/abs/2403.05907

代码链接：https://github.com/VISION-SJTU/Lightning-NeRF

2. 摘要

最近的研究突出了在自动驾驶场景中应用 NeRF 的前景。然而，户外环境的复杂性，加上驾驶场景中受限的视角，使得精确重建场景几何结构的任务变得复杂。这些挑战通常导致重建质量降低，并且训练和渲染的持续时间延长。为了解决这些挑战，我们提出了 Lightning NeRF。它使用一种高效的混合场景表示，在自动驾驶场景中有效地利用了来自 LiDAR 的几何先验信息。Lightning NeRF 显著改善了 NeRF 的新视角合成性能，并减少了计算开销。通过对实际数据集（如 KITTI-360、Argoverse2 和我们的私有数据集）的评估，我们证明了我们的方法不仅在新视角合成质量上超过了当前的最新技术水平，而且训练速度提高了五倍，渲染速度提高了十倍。

3. 效果展示

训练效率。 这些曲线反映了训练PSNR随时间变化的趋势。这些值是在Argoverse2的序列133e2e0b上得到的

4. 基本原理是啥？

Lightning NeRF框架的概述 。在Lightning NeRF的场景表示中，红色和绿色框分别代表前景和背景。给定LiDAR观测的点云数据，首先使用LiDAR初始化来初始化场景几何，然后从体素网格中查询沿射线的每个样本点的体密度σ和颜色嵌入特征f。采用分离式MLPs用于建模视点相关的(以观察方向d作为额外的输入)和视图无关性颜色。将两个组件结合起来，得到最终的渲染图像。

5. 实验结果

新视角合成的质量。 在KITTI-360和Argoverse2上提出了新的视角合成指标，分别列于表I和表II中。由于KITTI-360点云中高度的截断，存在大量的缺失覆盖部分。这导致许多前景区域在激光雷达初始化后仍保持未初始化状态。尽管存在挑战，但Lightning NeRF在PSNR和SSIM方面仍然超过了最先进的方法。值得注意的是，与Lightning NeRF相比，训练DNMP要不太高效，因为它在训练NeRF之前需要进行网格优化阶段。与KITTI-360相比，Argoverse2的点云覆盖范围更加全面。因此，Lightning NeRF在所有指标上都表现出明显的优势。

还在图4中展示了渲染的图像和深度图，以进行定性比较。Lightning NeRF深度图提供了更丰富的细节，并具有更一致的过渡，有效地利用了点云提供的先验信息。此外，在图5中，展示了Lightning NeRF的外推结果。外推对于闭环仿真系统至关重要。当自动驾驶车辆表现出与记录数据不同的行为时，仿真器应该能够从相应的视角生成观察结果。由于Lightning NeRF实现的精细深度和颜色分解，外推结果与其他技术相比明显更优秀。

训练和渲染成本。表III展示了Lightning NeRF在训练和渲染速度方面的优势。为了公平比较训练速度，报告了每种方法收敛到与NGP相同PSNR的训练时间。对于序列133e2e0b、2aea7bd1和b1a98ad6，分别使用了28.5、27.0和28.0的PSNR值来报告训练时间。在所有测试场景中都取得了显著的速度改进。从表中可以看出，激光雷达初始化（LI）和混合场景表示（HSR）的组合相对于NGP，Lightning NeRF的收敛速度提高了4倍以上。此外，由于明确建模了占用信息，指导抽样减少了渲染过程中的样本点数量，并且节省了MLP推断的时间，从而实现了10倍更快的渲染速度。表IV中展示了私有数据集的结果，以展示在大规模场景上的训练速度优势。对于600m场景，提出的方法在1分钟内训练超过了在5分钟内训练的NGP+L的性能。

6. 总结

这篇文章介绍了Lightning NeRF，一种高效的融合点云和图像的新型室外场景视图合成框架。该方法利用点云快速初始化场景的稀疏表示，获得了显著的性能和速度提升。通过更有效地对背景进行建模，降低了前景上的表征紧张。最后，通过颜色分解，分别对视点相关和视图无关性颜色进行建模，增强了模型的外推能力。在各种自动驾驶数据集上的大量实验表明，Lightning NeRF在性能和效率方面都优于以前的最新技术。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉课程官网： www.3dcver.com