专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

SimGen 融合模拟与现实的级联扩散模型，推进自动驾驶数据生成！

智驾实验室 · 公众号 · · 2024-06-28 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

可控的合成数据生成可以显著降低自动驾驶研发中训练数据的标注成本。先前的研究使用了基于3D目标布局条件生成驾驶图像的扩散模型。然而，这些模型是在如nuScenes这样的小规模数据集上训练的，这些数据集在外观和布局多样性方面存在不足。

此外，训练后的模型只能基于来自同一数据集验证集的真实世界布局数据生成图像，这会导致过拟合。在这项工作中，作者介绍了一个名为SimGen的模拟器条件场景生成框架，它能够通过混合来自模拟器和现实世界的数据来学习生成多样化的驾驶场景。

它使用一种新颖的级联扩散 Pipeline 来解决具有挑战性的模拟到现实的差距和多条件冲突。

为了增强SimGen的生成多样性，作者收集了一个名为DIVA的驾驶视频数据集，其中包含来自全球73个地点的超过147.5小时的现实世界驾驶视频和来自MetaDrive模拟器的模拟驾驶数据。SimGen在保持基于文本提示和从模拟器中提取的布局的可控性的同时，实现了卓越的生成质量和多样性。

作者进一步展示了SimGen在鸟瞰图（BEV）检测和分割任务上对合成数据增强带来的改进，并展示了其在生成安全关键数据方面的能力。

代码、数据和模型：https://metadriverse.github.io/simgen/。

1 Introduction

作者提出了 SimGen ，一个通过模拟器条件生成模型的可控场景生成范式。它从现实世界和模拟数据中学习，然后可以根据模拟器的控制条件和文本提示生成多样的驾驶场景。

高质量且多样的训练数据集对于自动驾驶研究与发展至关重要。然而，标注数据既费时又费力。合成数据生成是获取带标注训练数据的一种有前景的替代方法，它带来了逼真的图像并在诸如目标检测[9]和语义分割[73]等任务上带来了显著的性能提升。

除了生成图像的逼真性之外，实用的自动驾驶合成数据生成器还需满足两个必要条件：

外观多样性，确保合成数据能够覆盖各种天气、环境和地理条件。
布局多样性，即目标的分布应涵盖不同的交通场景，包括在现实世界中难以收集的安全关键情况。

最近的基于扩散的生成模型在从文本提示[76]，鸟瞰图[65]和目标框生成逼真的驾驶图像方面显示出有希望的结果。尽管这些尝试生成了连贯的图像，但由于数据限制，它们在生成新的和多样的现实世界外观和交通场景的泛化能力上有所欠缺。它们局限于在包含有限场景（例如仅限城市街道[5]或有限天气条件[50]）的小规模数据集上进行学习。此外，如nuScenes等可用的驾驶数据集中的驾驶行为单调且缺乏复杂或安全关键情况。收集合成数据的另一种选择是来自驾驶模拟器，它可以轻松地通过其物理和图形引擎生成涵盖各种行为的场景。模拟器还提供了对所有目标及其空间位置的精确控制，因此可以轻松生成大量的交通布局图。然而，开源模拟器通常只包含有限数量的3D资源，且它们缺乏真实的视觉外观。因此，在模拟器生成的数据上训练的模型很容易过拟合，这也称为模拟到现实的（Sim2Real）差距。

作者通过将数据驱动的生成模型与模拟器相结合，同时获得现实世界数据的外观多样性和模拟数据的布局可控性，从而取得了两种优势。为此，作者引入了 SimGen ，一个模拟器条件的扩散模型，它遵循模拟器的布局指导，并利用丰富的文本提示生成多样的驾驶场景图像。一种简单的方法是通过训练控制分支，利用模拟器的深度和语义图像指导图像生成模型，如ControlNet[79]。然而，由于模拟器资源有限，且无法完全捕捉现实世界的变异，模拟条件与引导扩散模型生成现实世界图像的潜在现实条件可能存在冲突。为了解决这一问题，SimGen采用了级联设计。模型首先将添加噪声的模拟条件（如深度和语义图像）注入到预训练的文本到现实条件扩散网络的中间采样过程中。该网络随后通过连续去噪将模拟条件转换为更现实的条件，而无需对模拟条件进行额外的扩散网络训练。之后，第二个扩散模块利用 Adapter 集成多模态条件，并使用 Mask 过滤冲突数据。因此，SimGen在保持与模拟器的布局可控性同时，实现了卓越的生成质量和多样性。

作者构建了一个名为 DIVA 的新数据集，以增加训练数据的外观和布局多样性。DIVA由两部分组成：网络数据和来自模拟器的合成数据。一方面，网络数据覆盖了全球范围的地理、天气、场景和交通元素，保留了各种交通参与者的外观多样性。作者设计了一个数据整理流程来收集和标注YouTube驾驶视频。另一方面，从驾驶模拟器[34]收集的虚拟驾驶视频包含从轨迹数据集重放或由安全关键情景生成器[78]生成的交通流。简而言之，_DIVA数据集融合了现实世界的外观和虚拟布局_，由147.5小时的 D iverse I n-the-wild and V irtual driving 组成。

作者的贡献总结如下：

一个新颖的可控图像生成模型SimGen，它结合了驾驶模拟器以生成具有外观和布局多样性的逼真驾驶场景；
一个新的数据集DIVA，其中包含大量的网络和模拟驾驶视频，确保了场景生成的多样性，并推动了模拟到现实的研究；
SimGen在图像质量、多样性和场景生成的可控性方面优于同类模型，如BEVGen[65]，MagicDrive[18]，Panacea[70]，DrivingDiffusion[36]等。

2 Appearance Diversity and Layout Diversity from DIVA Dataset

作者介绍了包含现实世界和模拟中多样化驾驶场景的大型DIVA数据集。它促进了生成模型的训练，并解决了模拟到现实（Sim2Real）的挑战。表1展示了数据的统计信息、组成和标注，其中包含大约147.5小时的驾驶视频。数据来源于大量高质量的YouTube驾驶视频以及MetaDrive模拟器[34]中的模拟环境。作者用DIVA-Real和DIVA-Sim分别表示从YouTube下载的网页数据和来自MetaDrive模拟器的数据。与其他数据集的比较、许可和隐私考虑在附录B中详细说明。

DIVA-Real: Appearance Diversity in Web Data

收集网络视频。 如图2（左）所示，为了简化流程并最小化人工努力，作者从YouTube上搜索相关关键词，以识别一批驾驶视频频道。从这些已识别的YouTube频道下载视频。作者根据视频的长度和分辨率过滤掉不合适的视频，并继续下载合适的视频。这产生了数百个第一人称驾驶视频，每个视频的平均时长为一小时。接下来，作者将视频以10Hz的速率采样成帧，排除前30秒和最后30秒以消除用户频道信息。这个过程产生了超过430万的帧，等待进一步的数据清洗。

数据清洗和自动标注。 数据清洗对于确保数据质量至关重要，但手动检查每张图像是不切实际的。受到[76]的启发，作者实施了一个自动数据清洗工作流程以加快这个过程。利用视觉-语言模型（VLM）的出色图像理解能力，即LLaMA-Adapter V2 [17]，作者能够通过VLM进行质量检查，检查单包括非前方视角、视频转换、黑屏等标准，以识别不符合规定的图像。驾驶视频被分块成五个帧的批次。对于每个批次，VLM选择并评估一个随机图像；如果这单一图像未能通过检查，整个五帧批次将被丢弃。在自动标注过程中，各种预训练模型，包括BLIP2-flant5 [54]，ZoeDepth [3] 和 Segformer [74]，分别用于生成文本、深度和语义分割的标注。最终，收集到了超过120小时的带有丰富标注的驾驶视频。

DIVA-Sim: Layout Diversity from the Simulator

模拟器能够忠实地重建现实世界场景，从而获得具有布局多样性的训练数据。同时，在从数据集中加载驾驶场景（如地图拓扑）后，模拟器允许使用预定义规则或与原始策略不同的交互式策略改变交通参与者的动作和状态。这启发作者构建来自模拟器的 Sim2Real数据 。Sim2Real数据源自相同的现实世界场景，在这些场景中作者可以获得现实世界的地图拓扑、布局和原始传感器数据。同时，作者可以从这些场景重建配对数据，但使用重建的传感器数据，甚至改变布局和交通流。DIVA-Sim利用MetaDrive模拟器[34]和ScenarioNet[35]，从nuScenes布局[6]收集了5.5小时的虚拟驾驶视频，以及另外22小时由程序生成行为产生的数据。它通过引入一种对抗性交通生成方法[78]来收集一系列安全关键的驾驶数据，进一步提高了作者数据集的多样性。

场景布局构建。 作者利用ScenarioNet[35]将场景转换为适合模拟器的统一描述格式，称为_scene records_，记录地图元素和目标。如图2（右）中的示例场景所示，加载_scene records_后，MetaDrive[34]可以重建道路、街区以及交叉口，并根据记录的位置和方向放置相应的3D模型，如车辆、自行车和行人。作者会根据目标的类别和尺寸合理选择代表性的3D模型。模型的形状会根据真实尺寸进行缩放，以准确复制nuScenes数据集中的目标。通过这样做，数字孪生场景可以在模拟器中忠实地重建。 通过轨迹重放和渲染 Pipeline 获取图像。 _控制策略_决定了运动动力学，而传感器在任何所需位置生成多模态图像数据。为了创建nuScenes数字孪生，作者应用ReplayPolicy来回放所有目标的记录轨迹。作者的摄像机放置在nuScenes前置摄像机的确切位置，并将相机的视场调整以与nuScenes紧密匹配。摄像机属性可以设置为多种类型以获取各种传感器数据。总之，通过模拟器作者可以获得以下条件：渲染的RGB、深度、语义分割、实例分割和俯视图。

安全关键数据的创建。 除了构建现实世界数据的数字孪生，作者还可以利用模拟器继续增加安全关键数据并增强布局多样性。作者应用CAT方法[78]基于现实世界场景生成安全关键数据。具体来说，作者首先从Waymo Open数据集[63]中随机抽取一个场景。通过对抗性交互学习[78]，扰动一辆交通车辆试图与 ego-vehicle 碰撞。因此，作者收集了许多具有对抗性驾驶行为的安全关键场景，这些在现实世界中可能难以收集。这种从模拟器中可扩展创建安全关键数据的方法也是作者方法的优势之一。

3 SimGen Framework

SimGen旨在根据文本提示和包括来自真实世界数据集的语义和深度图在内的空间条件生成真实的驾驶图像，并在数据生成 Pipeline 中整合了驾驶模拟器以实现可控且多样化的图像生成。将模拟器整合进来，使得能够访问到交通参与者的多样化布局和行为，从而更好地缩小Sim2Real（模拟到现实）的差距。然而，如果仅基于模拟器合成的数据来条件扩散模型，由于有限的资源和人工渲染的限制，扩散模型将导致图像质量不佳。作者提出了一个级联生成模型，该模型首先将模拟的空间条件转换为与数据集中的真实条件相似，然后使用这些真实条件来指导第一人称视角的图像扩散模型。

如图3所示，SimGen首先从数据集中抽样一个驾驶场景和一个文本提示，并调用驾驶模拟器MetaDrive [34]来渲染_模拟条件（SimCond）_，即合成的深度和分割图像。然后，SimCond和文本特征被输入到一个轻量级的扩散模型 CondDiff （第3.1节）中，该模型将模拟条件转换为_真实条件（RealCond）_，这些条件类似于来自YouTube和nuScenes数据集的真实世界的深度和分割图像。最后，一个名为 ImgDiff （第3.2节）的扩散模型根据多模态条件生成驾驶场景，包括RealCond、文本提示以及可选的模拟空间条件，包括RGB图像、实例图和俯视图等。### 模拟到现实的条件转换

尽管作者努力将模拟器设置与真实数据对齐，比如相机的内在和外在参数，但RealCond和SimCond之间仍然存在差异。这种差异源于图像不匹配、3D模型的固有缺陷以及模拟器缺乏背景细节（附录C.1.1）。因此，需要对模拟条件进行转换，使其更接近真实条件。一个简单的解决方案是使用领域适应[46]，并将SimCond和RealCond视为不同的图像风格。然而，要训练一个能够泛化到新场景的领域转移模型，需要成对的SimCond和RealCond数据，远远超过像nuScenes这样的公共数据集。因此，有必要采取一种无需在SimCond上进行额外训练的适应方法来实现Sim2Real转换。为了实现这一点，作者首先使用DIVA-Real的数据来训练一个扩散模型，即CondDiff，它仅从文本提示生成RealCond。训练不包含从模拟器渲染的数据。在推理过程中，CondDiff将加入噪声的SimCond注入到中间采样过程，并通过连续去噪将其转换为真实条件。

从文本输入学习生成条件。 为了促进CondDiff的学习过程，作者在这个阶段开始时使用文本到RealCond的生成。具体来说，作者利用Stable Diffusion 2.1（SD-2.1）[58]，一个用于文本到图像生成的大型潜在扩散模型。它被实现为一个去噪UNet，记为，具有多个堆叠的卷积和注意力块，通过去噪潜在噪声来学习合成图像。设表示来自数据分布的一个潜在特征。从开始，训练过程包括逐渐向过程添加噪声，对于，直到变为高斯噪声，即前向随机微分方程（SDE）[25]。模型通过最小化均方误差进行优化：

其中是描述在去噪步骤时噪声大小的标量函数，是表示数据大小的标量函数，参数化去噪器模型，是添加的噪声，是指导去噪过程的文本条件。学习发生在压缩的潜在空间中，而不是像素空间中[58]。在采样过程中，模型从标准高斯噪声的最终步骤预测开始迭代去噪，以生成图像。

原始的SD-2.1是在与驾驶场景中的深度和语义图像无关的多个领域数据上训练的。如图3右上角的CondDiff所示，作者使用来自DIVA-Real和nuScenes的文本、深度和分割数据的三元组对SD-2.1进行微调，使其成为一个文本到RealCond模型，目标是方程(2)。在加载SD-2.1预训练权重后，此阶段微调UNet的所有参数，而CLIP文本编码器[53]和自动编码器[16]保持冻结。深度和分割数据通过一组如第2.1节所述的感知模型进行自动标记。无需适应的模拟到真实的转换。现在，作者有一个从文本提示纯粹生成RealCond的模型CondDiff。然后，作者将使用来自模拟器_SimCond_的条件来指导采样过程，以便作者可以将SimCond转换为RealCond。根据SDEdit[43]，反向SDE，即扩散模型从任何中间时间开始迭代去噪标准高斯噪声以生成图像，可以开始。这启发作者将添加噪声的SimCond插入到采样过程的中间时间，模型将使用它们作为生成具有SimCond布局的RealCond的指导。具体来说，该模块首先将SimCond编码到潜在空间中以得到。它选择一个特定的时间，并使用标准差的高斯噪声对输入进行扰动，如下所示：

扰动过程将有效地移除低 Level 细节，如像素信息，同时保留高 Level 线索，如粗糙的颜色笔触[43]。经过噪声处理的图像在去噪过程中无缝替换扩散模型在时间的状态。因此，中间状态

SimGen 融合模拟与现实的级联扩散模型，推进自动驾驶数据生成 ！