专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

多视图语义分割图生成，神经视图转换在 BEV 图像生成中的关键作用！

智驾实验室 · 公众号 · · 2024-09-11 08:00

正文

请到「今天看啥」查看全文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

本论文探讨了鸟瞰图（BEV）的生成，即将BEV地图转换为相应的多视图街头图像。由于其统一的空间表示有助于多传感器融合，BEV在各种自动驾驶应用中至关重要。从BEV地图生成准确的街道视图图像对于描绘复杂交通场景和增强驾驶算法至关重要。

与此同时，基于扩散的 conditional图像生成模型已经展现出了显著的成果，擅长于产生多样化、高质感和条件对齐的结果。然而，训练这些模型的需求巨大，需要大量数据和计算资源。因此，探索如何对高级模型（如稳定扩散模型）进行微调，以用于特定的条件生成任务，成为了一个具有前景的途径。

在本文中，作者介绍了一种从BEV布局生成图像的实际框架。作者的方法包括两个主要组件：神经视图转换和街道图像生成。神经视图转换阶段通过学习BEV和透视视图之间的形状对应关系，将BEV地图转换为对齐的多视图语义分割图。

随后，街道图像生成阶段利用这些分割作为条件，指导微调后的潜在弥散模型。这个微调过程确保了视角和风格的统一。

作者的模型利用了在交通背景下大预训练弥散模型的生成能力，有效地产生了多样化和条件一致的街道视图图像。

I Introduction

自动驾驶浪潮中，采用复杂的科技和表示以确保最优导航和决策变得至关重要。其中，鸟瞰图（BEV）起着独特的作用。它提供了一种分层、地图式的表示方法，提供了对当前环境的宝贵洞察，捕捉了相关的障碍和危险。

虽然BEV感知是近期研究的热点，有望在街面视图和头顶视图之间建立转换，但BEV生成——特别是从预定义的BEV语义布局合成的真实 street-view 图像，具有未开发的潜力。

BEV生成[4]是解决BEV生成问题的先驱。在该框架的BEV表示中，地图组件分为两类：车辆和道路。模型采用自动回归 Transformer [5]并设计空间注意力来理解摄像机和地图视角之间的关系。尽管BEVGen 通过生成与地图视角一致的多视图图像，树立了基准，但由于其隐式编码机制，无法持续保证条件一致性。

作者的贡献可以总结为以下几点：

作者开发了一种新颖的框架，从BEV布局生成街道视图图像，利用一个大型预训练的潜在扩散模型。该框架包括视角转换，街道视图适应和条件生成。
作者探索了为多视图图像编码视角的方法并将其集成到生成扩散模型中，通过这种方式，作者的方法可以生成与所需视角和布局相匹配的多样且灵活的景象。
作者调查了利用大型生成模型进行BEV图像生成的潜力，并与其他从零开始训练的算法进行了全面比较。作者的方法是高效且有效的，实现了高质量和多样性的结果。实验结果证明，作者的方法在视觉质量方面超越了现有方法或在条件一致性方面等于现有方法。

II Related Work

条件图像生成： 最近，条件图像生成的领域取得了显著的进展，主要基于文本或语音 [9] 输入的模型占主导地位。诸如类条件 [10]、草图 [11]、风格 [12] 和独特的人体姿势 [13] 等多种格式，可以传达预期的图像规格。此外，一些学者探索了高级表示方法，包括从语义 Mask 生成图像 [14] 或将复杂的构建，如场景图 [15] 和边界框 [16] 转换为等效语义 Mask 。作者关注的是鸟瞰图，尽管它类似于语义分割图，但它提供了一种与结果图像不同的视角，这在早期研究中被少有研究。

图像扩散模型： 由 Sohl-Dickstein 等人最初提出的图像扩散模型近年来在图像生成 [18] 方面得到了应用。潜在扩散模型（LDM） [6] 发生在潜在图像空间 [19]，优化了计算效率。文本到图像的扩散模型，通过预训练语言模型如 CLIP [20] 将文本输入编码为潜在向量，在图像生成方面创造了新的基准。 Glide [21] 是一个既适用于图像创建又适用于编辑的文本驱动的扩散模型。 Stable Diffusion 扩展了潜在扩散的观念 [6]，Imagen [8] 则通过金字塔结构扩散像素，绕过潜在图像。作者使用 Stable Diffusion 作为作者的基础预训练模型。通过微调，作者将其适应于各种视图和驱动场景。

BEV感知与生成： 在自动驾驶领域，最近大型 3D 数据集的增长推动了关于地图视图感知的学术研究。由于输入和输出的坐标系之间的差异，这个领域面临挑战。虽然输入来自校准的摄像头，但输出在地图上进行渲染。一种普遍方法假设大部分场景是平直的，通过同构 [25] 简化图像到地图的转换。然而，这可能导致动态实体的Artifact，如车辆。作为一种解决方案，一些研究 [26, 27] 利用深度和语义图来呈现物体在 BEV。反之，其他方法 [2, 3] 绕过显式几何建模，直接从图像生成地图视图预测。

作为其对应物，从 BEV 地图布局生成仍然相对鲜为人知。BEVGen [4] 首先探索了这一领域，采用了自动回归变换来编码图像和 BEV 表示之间的联系。相比之下，作者的方法利用了一个大型预训练扩散模型作为 Backbone ，并通过使用驾驶场景图像进行微调。

III Method

BEV生成的目标是生成多个摄像头视角图像，从一个语义BEV布局中生成。早期研究中，BEV布局被表示为[2]栅状或[28]矢量化形式。在本工作中，作者倾向于栅状表示，因为它适合从3D边界框的投影生成局部街道地图[2]，或直接从驾驶仿真框架[29]。因此，BEV布局表示为，表示地图元素类别数量，例如车辆和道路。

给定BEV地图和个摄像头视角，其中分别表示第个摄像头的内参、外参旋转和外参平移，作者的目标是生成个相应的图像。

如图2所示，作者的流水线分为两个阶段。首先，利用相机参数将BEV的语义信息投影到摄像头视角，并假设相机高度。此形状随后使用CNN进行细化。在接下来的阶段，一个预先训练的UNet执行反向扩散过程[6]，逐步消除高斯噪声。这个UNet接收光滑的语义信息与提示作为条件输入。此外，为了确保不同摄像头视角下视角的准确性，作者调整网络进行 fine-tuning。

Stage I: Neural View Transformation

受[30]的启发，作者将BEV-to-camera视图变换视为图像转换任务，其中输入和输出具有强烈的空间对应关系。作者将这个变换分解为两个阶段：利用相机参数进行初始设置，并通过神经网络进行形状优化。

初始投影使用相机参数: 对于任何世界坐标，视图变换可以通过以下公式在摄像机的视点上描述其相应的图像坐标（在单位坐标系中）：

其中和是相机参数。由于地面高度数据不精确，BEV映射数据中的世界坐标存在歧义，需要估计高度。虽然Inverse Perspective Mapping (IPM)技术是基于平地的前提，但这个假设可能会对各种高度的目标引入畸变，如建筑物和车辆。鉴于作者专注于道路和车辆，作者对道路保留这个简化的假设。

对于车辆，作者假设它们的高度遵循一个预定的分布。实际上，每一个BEV映射上的车辆都随机分配了一个高度样本，从中取值，以提供初始高度近似。有了道路和车辆的估计高度，作者将BEV映射投影到相机视图，使用公式（1）。

形状优化网络: 通过高度估计和投影，作者得到了初步的语义图在相机视图。然而，这个简化的初始设置无法精确地保留映射元素的复杂形状。由于作者在BEV映射上使用车辆的真正3D边界框进行渲染，作者的投影方法导致车辆在相机视角下看起来像是一个立方体。因此，进行形状优化的后处理步骤是非常有必要的。

初始投影得到一个低分辨率估计。要解决这个问题，作者采用了一个带有残差连接的增强UNet架构[32]。这个网络在估计的语义图和真实的语义图之间桥接形状差异。作为一个上采样模块，它输出具有更高分辨率和大 fine-geometry的语义图。这些优化的图像是条件输入到图像生成器中。该网络对最终图像生成结果的贡献参见图3。

Stage II: Street Image Generation

作者利用Stable Diffusion，这是一种基于潜在扩散[6]框架的强大预训练图像生成器作为生成基础。在本节中，作者将讨论条件生成机制的工作方式以及如何将大型预训练模型适配到作者的驱动领域。

使用潜在扩散模型进行条件生成： 潜在扩散模型可以概念化为一个均匀加权的序列的解噪自编码器，表示为。这些自编码器的目标是预测输入的去噪版本，其中表示原始输入的噪声变体。这导致了以下目标：

其中均匀采自。

作为一个大型文本到图像的潜在扩散模型，潜在扩散引入了CLIP[20]解码器，该解码器将文本提示映射到中间表示 , 然后通过实现将中间层映射到UNet。其中，代表U-Net 在中间阶段的 flattened 表示。

作者的任务不仅仅局限于利用提示作为条件信息。由BEV图生成的语义数据作为优秀的控制机制，因为最终生成的图像应在像素空间上与这些语义图对齐。这需要作者目标更精确的条件机制。

受到ControlNet [33]的启发，它使用零卷积和可训练的原神经网络副本，作者的方法操纵神经网络块的输入条件。这个策略能让作者对整个神经网络的行为有更细腻的控制。作者将用于语义分割的预训练ControlNet层集成到作者的架构中（如图2所示）。这些层作为图像生成过程中的条件控制器。尽管这些语义控制层是在更广泛的数据集上进行训练的，但在作者的驾驶场景中，它们显示出很强的泛化能力。

街景适应性： 作者的街景适应模块具有双重作用。首先，它模拟了作者在数据集中发现的驾驶场景的图像风格。其次，它包含了与各种相机相关的视角。

虽然使用公式2微调扩散模型有助于捕获特定驾驶场景的实时风格，但作者必须记住，当从不同摄像机的视角观察同一个场景时，视觉效果可能会有很大的变化。例如，通过作者的正面摄像头看到的车辆应该与作者的汽车行驶方向对齐，而通过侧面摄像头看到的同一辆车将呈一定角度。此外，可行驶区域的宽度通常在正面和背面摄像头下更突出，而从侧面角度来看则会显得更受限制。

遵循这些观察结果，作者为特定视角调整图像生成器。视角编码机制如图4所示。受到DreamBooth [36]的启发，作者以个性化的概念（例如，特定的狗）作为独特的提示，将视角视为抽象概念并根据视角引入特定的损失来优化扩散模型。这确保视角与提示中的基本概念（如汽车或街道）区分开来。训练损失可以用如下表达：

IV Experiments and Results

第 IV 实验部分的开始和结果部分的概述。

Dataset

nuScenes数据集[22]是一个全面的收集，包括1,000个多样化的街景场景，在各种天气、时间和使用流量条件下进行拍摄。每个场景持续20秒，包含40帧图像，总共40,000个样本。数据集旨在为自车提供360 的视角，数据来源包括六个不同的摄像机视图，从车辆侧面、正面和后方捕捉图像。每个摄像机视图都包含每帧的校准内参（K）和外参（R，t）。此外，物体（包括车辆）在 frame 中保持一致，并通过用 LiDAR 数据生成的 3D 边界框进行标注。数据集分为 700 个训练场景、150 个验证场景和 150 个测试场景。

遵循 [2]，在BEV中的车辆语义 Mask 具有分辨率为（200，200）[2]。这是通过将 3D 箱标注annotation onto地面平面(对应于实际环境中100m，100m的区域)进行正交投影实现。道路 Mask 使用 nuScenes地图工具包表示，该工具包集成了车道和道路段。

Implementations

形状提升网络：形状提升网络包括三个下采样块和四个上采样块的卷积神经网络。它接受尺寸为（56,100）的输入数据，并生成尺寸为（224,400）的输出数据。由于原始的nuScenes数据集没有包括图像语义标签，作者使用SegFormer [38]来生成伪标签。作者将网络训练了10个周期，学习率为1e-7。

预训练稳定扩散和控制模块： 作者使用HuggingFace [39]上的预训练稳定扩散模型 "RealisticVision"。控制模块来自ControlNet [33]，最初在ADE20K数据集 [34]上进行训练，并使用BLIP [40]进行标注。

街道视图自适应模块： 对于每个摄像头视角，作者使用一套100张图像来训练相应的自适应模块。作者对regularization的基础提示包括“道路”、“汽车”和“街道背景”。为了指定视点，作者使用字母数字表示法（例如，cam0）来避免与预训练CLIP文本编码器[20]中的现有概念发生重叠。在fine-tuning过程中，图像分辨率设置为（400, 224）。训练过程包括5000个步骤，批处理大小为4，学习率设置为1e-4，LoRA [37]的秩为16。

Results

定性结果：作者在BEVGen[4]和从头训练的变分自编码器模型（使用 Transformer 架构，具体为UViT[35]）的对比中呈现了作者的方法。值得注意的是，作者的方法涉及微调预训练的扩展模型，而其他两种方法从头训练模型。结果可见图5。

作者的方法在图像质量方面表现出色，其条件机制被证明是有效的。UViT和BevGen都使用交叉注意力来管理条件信息。然而，由于语义和生成图像之间缺乏显式空间关系，他们的模型偶尔会出现故障，使其条件机制难以始终保持有效。关于图像质量和多样性，从零训练的方法通常与特定数据集密切相关，往往容易过拟合。特别是，基于UViT的扩散模型在有限的训练数据集上面临挑战。

作者在图6中展示了进一步说明生成结果多样性的图像示例。作者的方法轻易地实现各种天气条件下的图像生成，极大地提高了模型的适应性。

定量结果：在表1中，作者将作者的方法与基准BevGen和基于 Transformer 的扩散模型进行了对比。类似于BevGen，作者使用Frechet Inception Distance (FID)[41]来评估生成图像与训练数据集的一致性。虽然作者的输出具有视觉上吸引力和一致性，但FID分数落后于BevGen。这可以归因于作者依赖有限的数据进行微调，因此视觉风格主要受基础扩散模型限制。为了进行更公平的比较，作者从零开始训练了一个基于UViT的潜变分自编码器模型，该模型得到了更不利的FID分数。这表明训练数据集可能不足，从零训练深度模型是一项复杂的任务。

此外，作者使用预训练的BevSeg模型[2]评估了作者的方法。为了衡量预测和实际BevSeg图形的兼容性，作者采用了平均Intersection over Union (mIOU)。结果表明，在道路的背景下，作者的模型与基准相当。由于道路始终被遮挡，作者的细化模型很难整合准确的轮廓。相反，对于车辆，作者的方法明显优于基准，显示出作者的定位条件和视角编码技术的重要性。

Ablation Studies

在作者的研究中，作者进行了消融研究，重点关注了作者的两大核心创新：形状优化过程和街道视图适应技术。这些研究细节请参见Table. II。形状优化过程对于确保地图元素准确放置至关重要。当相机视角内的形状更符合语义时，它与给出的提示的有效性更强。另一方面，街道视图适应模块作为风格编码器发挥着至关重要的作用。它的主要功能是确保生成的图像与训练数据集中的图像具有强烈的相似性。此外，这个模块大大辅助了图像生成器，使其能够实现各种地图元素的适当和精确的方向。

V Limitations and Future Works

在作者设计的特定环境中，多个摄像头的集成具有产生全面而且显著放大比全景图像的能力。这与传统的图像有所不同，并提出了一个独特的挑战。理想情况下，最有效的方法应该是直接生成全景或多视角图像，因为这将固有地保持和维护图像视图的一致性。然而，这在这里形成了挑战：目前可用的绝大多数大规模图像扩散模型都是从根本上针对标准、更传统的 aspect ratio 进行训练的。因此，当应用于作者的特定需求时，这些模型远远不够。这个限制在图7中得到了明确展示。当任务要求渲染高质量图像，并要求广泛的视野范围时，这些模型面临着巨大困难。

认识到这一点，作者未来的努力将集中在更深入地研究和探索能够利用这些大规模图像扩散模型无缝生成多视角图像的更强大和有效的方法。

VI Conclusion

在本文中，作者提出了一种名为SAM-COD的SAM引导的统一框架，用于弱监督的伪装对象检测（WSCOD）。该框架整合了所有现有的伪装对象标签（即涂鸦、边界框和点），并在对抗最先进的弱监督方法和甚至完全监督方法方面取得了显著的性能。

作者提出的SAM-COD旨在解决WSCOD任务中SAM的问题，即涂鸦标签的提示兼容性、极端响应、语义错误响应和不稳定特征表示。

具体来说，在SAM-COD中，作者设计了一个提示适配器来处理不同的标签，并使用响应过滤器和语义匹配器来减轻 SAM 对于伪装对象的不完美输出的影响。此外，作者还提出了一个提示自适应的知识蒸馏，用于可靠的特性表示。

作者在伪装对象数据集上进行了广泛的实验，证明了提出方法的有效性，它改进了SAM，使其更适合WSCOD。

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

多视图语义分割图生成，神经视图转换在 BEV 图像生成中的关键作用 ！

正文

请到「今天看啥」查看全文

I Introduction

II Related Work

III Method (adsbygoogle = window.adsbygoogle || []).push({});

Stage I: Neural View Transformation

Stage II: Street Image Generation

IV Experiments and Results

Dataset

Implementations

Results

Ablation Studies

V Limitations and Future Works

VI Conclusion

请到「今天看啥」查看全文

多视图语义分割图生成，神经视图转换在 BEV 图像生成中的关键作用！

III Method