专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
51好读  ›  专栏  ›  自动驾驶之心

闭环仿真日新月异的今天,如何紧跟节奏?自动驾驶3DGS最新综述!

自动驾驶之心  · 公众号  ·  · 2024-12-13 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 火箭军工程大学 & 武汉大学等团队最新的场景重建综述! 全面盘点3DGS在自动驾驶中的应用,文章已中稿中科院二区TOP《Artificial Intelligence Review》。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 三维重建 技术交流群

论文作者 | Huixin Zhu等

编辑 | 自动驾驶之心

0 写在前面

NeRF技术兴起于2020年,自此掀起了三维重建领域新一轮的革新风暴。三年时间飞逝,新的算法和改进层出不穷,其视觉质量逐步提高突破。并且在该技术的支持下,许多领域都取得了突破性的成果。近几年的顶会上也涌现出大量关于NeRF的文章,NeRF已经逐渐成为世界计算机视觉领域里面的一个非常主流的领域。为何NeRF会在短时间内受到如此广泛的重视?这是因为相比于传统几何的三维重建方法,NeRF更加简单且逼真。若要对NeRF"更简单、更逼真"的优势进行深刻了解,就需要进一步了解传统几何三维重建与NeRF三维重建的pipeline。

自动驾驶需要三维重建技术来帮助车辆更好地了解周围环境(如驾驶场景理解、同步定位和建图以及城市场景重构)。重建技术可重建车辆周围的环境,为自动驾驶系统提供更准确的环境信息。这有助于自动驾驶系统更好地规划驾驶路径,避免碰撞,提高驾驶安全性。图1展示了自动驾驶与3D重建技术之间的关系。

图1 自动驾驶与3D重建技术的关系示意图

在三维场景重建方法中,主动式重建技术由于其设备成本高、检测速度慢和算法泛化差等原因,因而在室外场景的应用中表现不佳。以多视角立体视觉法为研究重点的被动式重建技术采集速度快、设备效益高、整体系统的灵活性和鲁棒性强,而其中神经辐射场(Neural Radiance Field,NeRF)作为计算机视觉领域隐式辐射场的代表,以其高度逼真的渲染质量、自由灵活的场景表示和端到端的学习框架受到研究人员的喜爱。

但NeRF per-pixel ray marching的原理天然使得效率低、过度平滑且容易发生灾难性遗忘。因此研究人员开始思考,有没有更好更快的三维场景表达形式,以实现高质量重建。

至此3DGS问世。

三维高斯喷溅(3D Gaussian Splatting, 3D GS)结合了显式辐射场的数据存储优势和隐式辐射场的网络优化特点,实现了高速度运行、高质量渲染和高可靠交互的目标,刷新了三维场景重建的各项指标SOTA,有望为高级别自动驾驶的实现提供强有力的技术支持。

原始的3DGS算法聚焦在静态场景的重建,但自动驾驶场景却是动静态场景的结合,因此最开始在自动驾驶中的应用受到了一定的限制。而自4DGS问世以来,这种限制逐渐被打破。

为了基于3D GS的场景重建技术在自动驾驶领域得到更全面更广泛的普及与推广,本文梳理了3D GS有关主题材料,并侧重于展现其优异的整体性能和蓬勃的发展态势。本文的重点在于探究基于3D GS的场景重建技术的发展脉络,其在自动驾驶领域的应用情况以及目前面临的挑战与研究前沿。本文的结构框架概略图如图1所示,具体介绍如下:第2节主要介绍3D GS研究背景,包括三维场景重建方法以及3D GS有关研究进展。第3节介绍了3D GS的主体模块,并重点揭示了3D GS核心公式的推导过程。第4节论述了3D GS在自动驾驶领域三个主要方面的应用,展现其灵活高效的优势。第5节强调了在自动驾驶领域3D GS的进一步研究方向,挖掘其潜在能力。本文的宗旨是以通俗易懂的方式带领读者了解3D GS这一种新兴技术在自动驾驶领域的研究情况,为研究人员思考如何促进高级别自动驾驶的实现提供有益帮助。

图2 论文框架示意图

1 主要贡献

第一点是全面的最新综述。我们的调查报告对自动驾驶中的3D GS进行了广泛和最新的综述,涵盖了3D场景重建方法的经典和前沿方法。

第二点是核心公式的数学介绍。我们的研究详细阐述了3D GS的数学基础,推导并说明了核心数学公式。

第三点是对未来方向的洞察。我们的调查分析了目前3D GS在自动驾驶方面的技术局限性,为未来研究提出了一些研究方向。

我们的调查可以为研究人员了解、探索、应用这种新颖的研究方法提供一个有效、便捷的途径,促进 3D GS 在自动驾驶领域的发展和应用。

引用格式如下:Zhu, H., Zhang, Z., Zhao, J. et al. Scene reconstruction techniques for autonomous driving: a review of 3D Gaussian splatting. Artif Intell Rev 58, 30 (2025). https://doi.org/10.1007/s10462-024-10955-4

2 研究背景回顾

三维场景重建方法依据设备采集数据方式的不同可以分为主动式重建技术和被动式重建技术。主动式重建技术指的是数据采集设备(如LiDAR或3D扫描仪等)主动发射信号(如激光、声波、电磁波等)至目标物体,并接收回波以解析目标的深度信息,通过数值逼近的方法来重建三维轮廓。其中,面向自动驾驶的代表方法有结构光法、TOF激光飞行时间法、三角测距法等。相较于主动式重建技术,被动式重建技术可以基于自然场景光照而得到图像数据,通过特定算法解算得到物体的立体空间信息。由于其具备设备成本低廉、应用部署快速和算法鲁棒性高等优点,因此被动式重建技术在室外场景重建受到广泛应用。其中,面向自动驾驶的代表方法有单目视觉法(Monocular Stereo Vision,MSV)、双目视觉法(Binocular Stereo Vision,BSV)和多视角立体视觉法(Multi-View Stereo,MVS)等。MSV仅使用一台摄像设备拍摄照片即可完成三维场景重建,其代表算法有阴影恢复形状法、纹理恢复形状法和轮廓恢复形状法等。MVS在BSV的基础上进一步增加相机和视角数量,依据多张已知相机姿态的图像联立建立密集的对应关系,得到场景物体表面密集的三维点云[31]。MVS不依赖于特定外界环境条件,精度高、采集快、成本低,是三维场景重建技术中的热门研究领域和重点难点领域。MVS依据处理方式的不同可以分为传统方法和深度学习方法两大类。传统MVS重建方法主要依靠视差和几何约束的思想来对三维场景进行重建,其场景几何的数学表示主要有体素、网格、点云和深度图四大类[32]。基于深度学习的MVS重建方法将其他方法的优秀思想引入神经网络,在重建质量、自动化程度和效率方面取得了显著进步。基于NeRF的三维场景重建算法具有出色的多视角一致性和连续性,无需显式三维标注,适应性强、易扩展,成为场景重建的重要研究方法之一。

但NeRF主要使用隐式的基于坐标的模型将空间坐标映射到像素值,使用体渲染和神经网络进行直接渲染,计算要求严、渲染时间过长、训练成本高。在这种背景下,三维高斯泼溅(3D Gaussian Splatting,3D GS)技术的出现作为一种范式转换方法,重新定义了场景重建与渲染的边界。如图3所示,相较于主流的NeRF算法,3D GS既保留了高质量场景重建的优点,又确保在短时间内实现SOTA级别的实时渲染效果,成为2023年末席卷三维场景重建领域的重要且突出的研究方法。

图3 3D GS与主流NeRF算法的重建质量与运行速度比较

自从法国蔚蓝海岸大学(Université Côte d’Azur,UAC)于2023年8月开源3D GS项目后,学术界掀起了轩然大波,各类衍生模型层出不穷。在自动驾驶领域,3D GS同样革新了三维场景重建和局部环境感知技术。面对蓬勃发展的自动驾驶技术,以3D GS为代表的场景重建技术在确保自动驾驶车辆安全、可靠行驶方面发挥着至关重要的作用。3D GS通过对周围环境的精确感知和快速建模,为自动驾驶系统提供了丰富的环境信息,帮助车辆更好地理解周围环境,从而做出更安全、更有效的驾驶决策。目前,已有一定的文献对3D GS的应用情况进行了综述总结,但是这些文献涵盖范围较广,关于自动驾驶领域的针对性不强。

3 3D GS数学机理

NeRF与3D GS之间一个重大的区别在于辐射场的显隐式表达。辐射场是一种量化三维空间中光的强度、分布、效果等参数的模型,可以被函数式(1)表示。







请到「今天看啥」查看全文