专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

OASim: 神经渲染开放式自适应自动驾驶仿真器

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-11 02:03

正文



OASim: an Open and Adaptive Simulator based on Neural Rendering for Autonomous Driving

OASim:基于神经渲染的开放式自适应自动驾驶仿真器


  • 作者:Guohang Yan, Jiahao Pi, Jianfei Guo, Zhaotong Luo, Min Dou, Nianchen Deng, Qiusheng Huang, Daocheng Fu, Licheng Wen, Pinlong Cai, Xing Gao, Xinyu Cai, Bo Zhang, Xuemeng Yang, Yeqi Bai, Hongbin Zhou, Botian Shi

  • 单位:Shanghai AI Laboratory, Shanghai, China



摘要

随着深度学习和计算机视觉技术的发展,自动驾驶为提高交通安全和效率提供了新的解决方案。构建高质量数据集的重要性不言而喻,尤其是近年来端到端自动驾驶算法的兴起,数据在算法闭环系统中起着核心作用。然而,收集真实世界的数据是昂贵、耗时且不安全的。随着隐式渲染技术的发展和对使用生成模型大规模生成数据的深入研究,我们提出了 基于隐式神经渲染的开放式自适应仿真器和自动驾驶数据生成器OASim 。它具有以下特点:

  • (1)通过神经隐式表面重建技术实现高质量的场景重建。
  • (2)自车和参与车辆的轨迹编辑。
  • (3)丰富的车辆模型库,可自由选择并插入场景。
  • (4)丰富的传感器模型库,可以选择指定的传感器生成数据。
  • (5)高度可定制的数据生成系统,可根据用户需求生成数据。

我们通过在Carla模拟器上的感知性能评估和真实世界的数据采集来证明生成数据的高质量和保真度,代码发布在https://github.com/PJLab-ADG/OASim

1、简介

本文介绍了一种基于神经隐式重构和渲染(neural implicit reconstruction and rendering)的开放式自适应自动驾驶模拟器OASim。环境由隐式表面重构技术(implicit surface reconstruction)表示[25]。该网络分别对静态环境和运动对象进行建模,移动的物体可以形成一个前景资源库,可以插入到场景中。Agent的外观、行驶轨迹和传感器配置可以定制,为感知和控制等下游应用生成高保真数据。我们提供了一个用户友好的交互式可视化界面来导入和导出数据、编辑设置和可视化呈现结果。OASim的核心特性如下:

  • 基于神经隐式重建的高保真实时渲染性能。
  • 自车和其他参与者的轨迹可以被编辑,并且车辆交互的交通流将被模拟。
  • 可以选择不同的传感器配置进行数据生成。
  • 根据新生成的车辆轨迹或新的传感器配置,可以呈现用户定义的数据。

2、方法

OASim致力于通过神经隐式重建和渲染技术生成高保真度和可定制的自动驾驶数据。OASim框架如图1所示。层次结构可分为四层:

  • 数据层:将输入数据转换为需要的格式,包括数据清理和标记。
  • 后端层:将处理后的感官数据和标记的高清地图输入到后端层,该层是系统的核心,实现了三维重建、交通流模拟和新颖的数据合成。
  • 前端层:提供交互界面,方便用户更改车辆路线和传感器配置。
  • 应用层:新合成的数据可用于多个下游任务,如感知、规划等。
Figure 1: Workflow of OASim.

2.1 数据采集和处理

真实世界的数据可以通过配备传感器的车辆在一段时间内行驶来收集。原始数据应该包含来自多视图相机的rgb图像,来自IMU/GPS设备的传感器姿势以及来自激光雷达的可选点云。为了融合传感器观测数据,需要精确的校准参数,包括时间同步和空间对齐。

系统的数据源包括Waymo[26]、Nuscenes[2]、Kitti[27]等标注良好的公共数据集。该系统还可以应用于从现实世界或其他仿真平台收集的自定义数据[19]。

采集数据的质量对重建和渲染的效果影响很大。由于自动驾驶车辆的观测是稀疏的,并且通常是从受限视角捕获的,因此建议车辆在不同方向上配备多个传感器,并在特定区域内沿不同路线行驶。

为了适应采集数据的不同格式和质量,首先将其转换为统一的格式并检查其完整性。为了重建静态环境,通过分割或目标检测方法生成动态目标掩模。当外在参数不够可靠时,利用场景表示相对于姿态的可微特性来联合优化时间偏移和外在参数[28]。此外,还手工标注了车道水平几何、道路标线、交通标志、障碍物等道路元素,生成了高清地图。

然后将处理后的感觉信息输入神经场进行环境重建。在交通流模拟器中使用标注的高清地图生成车辆交互和合理的轨迹。

2.2 环境重建和可编辑渲染

在隐式渲染中,NeRF (Neural Radiance Fields)和3D Gaussian Splatting都是用于三维场景重建和渲染的先进技术,各有其独特的特点和优势。NeRF的核心思想是通过训练多层感知器(MLP),使用神经网络对场景中每个点的亮度和深度进行建模。它被训练来映射空间坐标和观看方向到颜色和密度值。该方法的优点在于能够通过训练数据捕捉复杂的场景细节,从而获得高质量的渲染结果。NeRF的绘制过程涉及场景的体表示,在三维空间中均匀采样意义点,并通过网络预测其辐射特性。

3D Gaussian Splatting是一种基于点的渲染方法,它使用数百万个3D高斯分布来表示场景中形状的几何形状。与NeRF不同,3D Gaussian Splatting提供了场景的显式表示,其渲染算法是可微分的,这意味着它可以更容易地进行优化和编辑。该方法的特点是将实时渲染能力与高度的场景控制相结合,使其成为虚拟现实和互动媒体等领域的强大工具。优势在于它能够保持高质量的重建,同时也集成到传统的栅格化渲染管道中,允许更快的优化。

目前,自动驾驶领域的一些工作是基于隐式重构和前景编辑的,如[23,29,25]等。我们目前主要使用StreetSurf[25]作为隐式重建和渲染的基础。同时,我们还建立了一个丰富的前景资源库,用户可以自定义场景中的车辆。StreetSurf的官方开源对应物是NeuralSim[30]。值得注意的是,目前,NeuralSim只以开源的方式发布了后台渲染代码,并计划在未来发布前台和后台渲染代码的组合。因此, 目前OASim的开源版本只支持后台渲染,并将随着NeuralSim开源工作的进展而更新 。展望未来,我们计划在OASim系统中加入更多的隐式重建方法,如DrivingGaussian[29]和其他基于3D Gaussian Splatting的方法,我们还将丰富前景资产的种类,例如,通过添加自行车和行人等类别。

2.3 交互式可视化界面

OASim允许用户通过如图2所示的交互界面编辑自驾车和场景中其他车辆的轨迹。中间界面显示已建立的路网,方便用户选择车辆路线。轨迹可以通过选择起终点自动生成。用户也可以通过键盘对自动驾驶汽车进行引导,给出变道、转弯等详细的驾驶指令。渲染模块可以根据编辑好的轨迹实时生成数据。此外,在其他小部件中,用户可以通过键盘控制从不同的角度预览场景。

OASim允许灵活配置代理的传感器套件,包括摄像头,激光雷达,雷达等。支持通过改变内部和外部参数来修改传感器模型。传感器相对于车身的位置和方向由外部参数表示。系统预设了一些常用的本征组合,方便用户选择。传感器配置完成可用于生成和预览数据。

Figure 2: OASim interface.

2.4 下游应用程序

OASim的下游应用包括 数据生成、场景创建、自动标注、自动驾驶闭环训练与测试 等几个方面。随着自动驾驶技术的发展,传感器解决方案和计算平台日趋同质化,技术差距逐渐缩小。因此,技术迭代的焦点转向算法模型的训练,这需要大量的数据支持。

OASim能够重建和生成大量数据,特别是那些不常见但重要的Conner Case,以训练更复杂的算法模型,从而提高自动驾驶系统的准确性和可靠性。自动驾驶所需的场景数据通常构成长尾数据,这意味着它需要涵盖尽可能多的驾驶场景。数据闭环通过持续收集长尾数据,帮助自动驾驶系统更好地理解和适应各种复杂的驾驶环境。此外,OASim可以提供自动标注功能,生成带有标注信息的数据。OASim的后期阶段还可以支持自动驾驶的闭环训练和测试等任务。

Figure 3: Sensor editing and rendering interface.

3、实验

本节的实验结果证明了OASim模拟器可以生成的高保真数据,有编辑车辆轨迹和传感器配置的能力。

  • 逼真的渲染

下面展示了重建与Waymo开放数据集示例的定性比较。图4显示了三对地面真实图像(上)和渲染图像(下),可以看出,渲染后的图像非常接近真实的画面。图5为非刚性行人的渲染效果。

Figure 4: Qualitative image rendering results.
Figure 5: Non-rigid pedestrian rendering results.
  • 新颖的视图合成

为了展示新视图合成的质量,改变了自车的位置并渲染了图像。回放图像和渲染图像如图6所示。在第二列中,自车的车道发生了横向变化。在第三列,相机的位置升高了。

Figure 6: Novel view synthesis results.
  • 丰富的传感器配置

重建环境后,可以用不同的传感器模型渲染图像和LiDAR点云。图7显示了长焦距和短焦距相机在同一场景下的结果。图8为不同激光雷达模式下的点云结果。

Figure 7: Rendered images of different camera focal length.
Figure 8: Rendered point clouds of different LiDAR models.
  • 多场景交通流仿真

在编辑交通流时,我们可以模拟不同的交通流场景。图9为单车、少车和多车三种情况下的交通流仿真结果。

Figure 9: Simulation results of different traffic flow environments.

4、结论

本文提出一个开源的数据生成器OASim,具有逼真的渲染能力和强大的编辑能力。从现实世界中收集的多模态数据中,可以重建环境,并在其中自由运行车辆以生成各种数据。可以定制Conner Case,这对提高模型的能力和检测算法漏洞具有重要意义。还为用户提供了一个交互界面,方便地编辑设置和可视化渲染结果。该系统适用于户外自定义数据集和一些公共数据集。

参考文献

  • 原文:https://arxiv.org/abs/2402.03830











请到「今天看啥」查看全文