欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。 |
ADAS Laboratory
点击上方 蓝字 关注 智驾实验室
作者提出了MVPBEV,一种新颖的从鸟瞰图(BEV)生成多视角透视图像的方法,该方法在测试时具有可控性和泛化性。MVPBEV能够通过直接从数据中学习多视角图像的潜在分布来合成各种视角的图像。
作者方法的关键优势在于,它允许用户在测试时控制生成图像的视角,这对于增强现实和机器人技术等应用至关重要。
此外,MVPBEV在不同领域和尺度上展现出很强的泛化能力,适用于广泛的应用场景。作者通过在合成数据集和真实世界数据集上的大量实验验证了该方法的有效性,证明了其在图像质量和视角控制方面的优越性。本研究旨在解决给定鸟瞰图(BEV)语义情况下,多视角生成基于文本提示的RGB图像的问题。
与先前忽视布局一致性、缺乏处理详细文本提示能力或无法泛化到未见视角的方法不同,MVPbev采用两阶段设计,同时生成不同视角视图的跨视角一致性图像,允许在测试时进行目标级控制和生成新视角。具体来说,MVPbev首先利用相机参数将给定的BEV语义投影到透视视图中,使模型能够泛化到未见视角。
然后作者引入一个多视角注意力模块,其中特别初始化和去噪过程被用来显式地加强跨视角单应性下重叠视图之间的局部一致性。最后但同样重要的是,MVPbev进一步通过细化一个预训练的文本到图像扩散模型,允许测试时的实例级可控性。
在NuScenes上的大量实验表明,作者的方法能够从包含数千个训练样本的文本描述中生成高分辨率的逼真图像,并且在各种评估指标下超越了现有技术水平。
作者进一步借助新的评估指标和全面的人工分析,展示了作者方法在泛化能力和可控性方面的进步。
多视角透视图像对自动驾驶任务有益。如今,多视角摄像头,包括前向和侧向安装的摄像头,已成为大型驾驶数据集如 NuScenes、Argoverse 的基本要求。通常,来自多个摄像头视角的图像被感知并进一步以鸟瞰图(BEV) 的形式表示,随后进行预测和规划等下游任务。直观地说,BEV因其为现实世界提供了可触摸的界面,从而更具可解释性,对高级建模和决策制定是有益且实用的。
尽管在自动驾驶任务中具有重要意义,但可靠的BEV表示在训练阶段需要大量的数据,这可能导致获取或标注耗时较长。解决这一数据问题的直观方法是通过生成模型获取多样性的透视RGB图像以及相应的BEV语义。与对应的透视RGB图像或语义相比,在参数表示的帮助下,多样的且可信的BEV语义更容易以真实的方式进行模拟(Waymo,2019年)。为此,自然且实际的做法是假设给定的是BEV语义,而不是透视RGB图像。那么剩下的问题就是,在已知BEV语义的情况下,生成跨视角在视觉和语义上一致的照片级真实RGB图像。
尽管受约束的生成模型取得了进展,但现有尝试解决跨视角图像生成问题的方法存在三个主要缺点。首先,现有框架严重依赖训练样本,导致测试时的可控性不理想。例如,改变摄像头姿态或在目标实例上提供额外的控制超出了现有技术的范围。此外,跨视角一致性没有得到良好执行,导致重叠视场中的视觉效果不一致。最后,在图像生成任务上没有进行彻底的人工分析,导致比较结果不可解释。
为了实现这一目标,作者提出了一种新颖的两阶段方法MVPbev,旨在通过明确实施跨视图一致性(见图1),生成具有给定BEV语义和文本提示的可控多视图透视RGB图像。与现有研究在测试时缺乏泛化能力不同,MVPbev进一步允许在测试时进行视点及详细文本提示的更改,在无需额外训练数据的情况下,通过人工分析提供了满意的性能。为此,MVPbev包括两个阶段:视图投影和场景生成阶段。前者根据相机参数将给定的BEV语义转换为多个透视视图。一方面,它通过明确的几何变换在视图间实施全局一致性;另一方面,这种设计将两个阶段解耦,使得第二阶段能够更好地捕捉视点不变属性。MVPbev的第二阶段从一个预训练的稳定扩散(SD)模型开始。通过明确结合跨视图一致性模块,以及作者设计的噪声初始化和去噪过程,它能生成在重叠视场(FOV)中视觉一致且逼真的多视图图像。为了进一步提高测试时对物体的泛化能力,作者的MVPbev分别处理前景实例和背景布局,从而在推理过程中实现更好的可控性。
作者在NuScenes(Chen等人,2017年)数据集上验证了作者的想法,并遵循标准的划分。与那些专注于下游任务改进或语义一致性的方法不同,作者包括了额外的人工分析,特别是在多个视图中的重叠FOV上的视觉一致性,以及测试时视点和文本提示的变化。作者证明,作者提出的方法不仅提供了更好的测试时可控性和泛化能力,还能生成高质量的跨视图RGB图像。
总之,作者的贡献可以总结如下:
条件图像生成 生成模型,例如高斯混合模型(Xu等人,2019年)和贝叶斯网络(Xu等人,2019年),一直是机器学习和计算机视觉领域长期的研究问题,因为它能够解释复杂数据分布。特别是,图像生成模型不仅对无监督特征学习至关重要,还使得图像编辑等应用成为可能。随着深度学习技术的兴起,如自回归模型(Chen等人,2017年)、变分自编码器(VAEs)和生成对抗网络(GANs)(Chen等人,2018年),以及大量数据的涌现,作者观察到了具有非常好质量的逼真图像。其中,条件GANs得到了广泛研究,各种约束条件被纳入考虑,包括离散标签、文本和图像。最近,稳定扩散模型(Xu等人,2019年)被广泛用于根据文本描述生成详细图像。与之前的艺术作品相比,它们不仅展示了最先进的图像生成质量,还借助基础模型(Chen等人,2019年)展示了出色的泛化能力。后来,Controlnet 通过允许一组多样的条件控制,例如深度、语义或草图,极大地提升了扩散模型的总体性能,同时没有丧失原有的鲁棒性。尽管取得了令人印象深刻的进展,但多视图或跨视图文本到图像生成仍然面临计算效率和跨视图一致性等问题。为此,MVDiffusion(Wang等人,2019年)提出了一种新的对应关系感知注意力模块,从文本中创建多视图图像,同时保持全局对应关系。尽管MVDiffusion提供了优质的多视图RGB图像,但它未能推广到更剧烈的视点变化或较小的重叠区域。或许同时期的工作,包括BEVGen 和 MagicDrive 与作者的工作最为接近。第一个模型基于BEV语义生成多视图视觉一致的图像,通过使用带有跨视图注意力的自回归 Transformer 。而后两个模型处理图像草图/语义和文本,并利用跨视图跨目标注意力更关注个体内容的一致性。然而,现有工作都没有允许测试时的泛化能力,例如视点变化或详细的实例级文本提示。它们也没有对图像生成质量进行人为分析。相比之下,作者提出利用全局和局部一致性来利用语义和视觉连贯性,并结合作者无需训练的目标控制方法来加强详细的实例级控制。此外,作者还提供了全面的人为分析,以更可靠地证明作者方法的有效性。
新型视图图像合成 新型视图图像合成方法可以分为基于几何和基于学习两大类。前者试图首先估计(或伪造)近似的基础3D结构,然后对输入图像中的像素应用一些变换以生成输出。而后者认为新型视图合成从根本上是一个学习问题,否则它会严重缺乏约束。最近,属于后一类的神经辐射场(NeRF)(Kirshfeld等人,2018年)通过神经网络隐式编码体积密度和颜色,已经在特定场景的新型视图合成上展示了令人印象深刻的性能。从小型规模 开始,也提出了场景级NeRFs,例如Block-NeRF,通过重建大规模环境,使得重要用例,例如自动驾驶和航空勘测成为可能。相比之下,作者的方法将BEV语义和文本描述作为输入,输出多视图透视RGB图像。
作者的方法旨在根据给定的像素级鸟瞰图(BEV)语义对应关系,从文本提示生成多视角透视图像。具体来说,作者将BEV语义表示为 ,其中假设 ego 车位于中心。 、 和 分别表示 的高度、宽度和语义类别数。作者的目标是生成一组分辨率为 by 的透视 RGB 图像,即特定的 ,在 个虚拟相机视角下。第 个透视图像表示为 ,其中 。特别地,作者假设第 个相机的内参、外参旋转和翻译是已知的,分别表示为 、 和 。
如上所述,作者通过在隐式和显式方式下利用全局和局部一致性,获得了视觉上连贯的多视角图像。具体而言,作者的方法包括两个阶段。第一阶段以 BEV 语义 以及 作为输入,并将 BEV 语义根据各自的相机参数集投影到每个透视视图中,第 个视图的表示为 。第二阶段解析 和文本提示作为输入,并从 个透视视角生成 RGB 图像。
图3. 作者展示了作者的 BEV 投影过程。给定一个 BEV 语义图 ,作者将其投影到多个透视视图中。为了更好的比较,作者在透视视图中将语义叠加在原始 RGB 图像上。
图2. MVPbev 包括两个阶段。第一阶段使用相机参数将 BEV 语义投影到透视视图中,以保持全局语义一致性。第二阶段解析透视语义和文本提示,并通过在潜在空间中显式强制实现多视角图像的视觉一致性和测试时实例级控制。
表示从第 个视角生成的 RGB 图像。更具体地说,作者的第一个投影阶段在几何变换的帮助下,显式地强制 BEV 和透视视图之间保持全局语义一致性。同时,生成阶段通过多视角注意力模块在重叠的透视视图之间隐式地施加一致性。最后,作者提出了一种显式强制重叠视场中的视觉线索与新颖的训练初始化和去噪设计保持一致的方法。MVPbev 的整体流程如图2所示。作者在第3.1节和第3.2节分别提供第一和第二阶段的更多细节。第3.3节描述了模型训练过程。
假设可以通过现有的模拟方法(Zhu等人,2017年)轻松获得多样化且可信的鸟瞰图(BEV)语义 ,作者方法需要解决的首要基本问题是从 到透视图像集合 维持跨视图的语义一致性。其次,重叠视场内的内容也应当保持连贯。例如,不仅是背景类别,如建筑物或树木,前方的道路参与者也应该在不同视图中呈现相似的外观。为此,作者首先提出使用相机参数将BEV语义投影到 个透视视图中,生成了 透视语义。与现有工作(Zhu等人,2017年)相比,作者的投影步骤借助几何约束确保了BEV与透视视图之间的语义一致性,从而在生成步骤中减少了累积错误(见图3中的示例)。
仅从单个视角语义出发可能会导致不同视图间的内容不一致,尤其是在重叠的视场(FOV)中。例如,在不同视图(如前、前右、后、后左)的FOV中出现的建筑物和植被具有不同的外观。这是由于跨视图相机之间缺乏互动所致。作者注意到,这种不一致不会反映在鸟瞰图(BEV)布局分割或目标检测指标中,因为它只影响背景类别。
基于此,作者从方法和实验上关注这些重叠区域。就作者的方法而言,作者在重叠区域通过估计单应性来对背景内容施加强烈的连贯性约束,然后使用多视图注意力模块隐式地使不同视图的风格相对于估计的对应点保持一致。在这种情况下,外观一致性不仅可以在提供语义的背景布局区域强制执行,也可以在没有控制信号的其他区域执行。至于评估,作者引入了人工分析,以提供关于生成的图像(尤其是重叠区域)是否真实的可靠评估。作者证明,作者提出的方法很好地解决了背景一致性问题(定量和定性结果见第4节)。
单应性估计
作者首先通过估计重叠区域来在重叠的FOV中强制视觉一致性。为此,作者提出在具有重叠FOV的图像之间计算单应性。如许多驾驶数据集所示,一个视图通常会与其左右两侧的视图重叠。因此,对于第
个视图,作者只需要考虑
和
,分别是第
个视图的左右视图。然后作者估计从视图
到视图
的单应性,并将映射函数表示为
。因此,
-th视图中的
坐标将被映射到
视图中的坐标
。即
。同样,作者定义了一个逆映射
,它将
多视角注意力模块
什么使得一组视图显得不真实?首先且最重要的是图像之间的不一致性。换句话说,真实的视图必须显得一致,就像它们是在同一物理位置、一天中的同一时间拍摄的。更具体地说,这一组图像的视觉风格需要保持一致,使它们看起来都像是创建在同一个地理区域(例如,城市与乡村)、同一时间段,并且具有相同的天气条件等。为此,作者引入了一个多视角注意力模块,以便在从第
在这里,
为了训练作者的模型,作者引入了一种多视角潜在扩散模型(LDMs)(Zhu等人,2017)损失。基本上,原始LDMs包括一个变分自编码器(VAE),具有编码器
对于每个训练步骤,作者首先从1到
其中
在采样时,去噪(逆向)过程在潜在空间中生成样本,解码器
推理 如上所述,MVPbev可以扩展到实例 Level 的可控性。具体来说,作者的MVPbev允许用户点击目标实例并提供特定颜色的要求。为了实现这一点,作者提出了一种特殊的机制来控制多个前景物体,该机制通过操纵交叉注意力层的响应,精确指导实例级合成。假设在每个视图中,可以通过现有方法(Brock等人,2017年)或简单的检索获得实例级 Mask 。具体而言,作者首先使用其配对提示分别获取实例级和场景级潜在变量。然后,它们与这些二进制的实例级 Mask 有效地结合,导致更加空间一致的性能。请注意,MVPbev对前景物体的这种能力是不需要训练的,这大大提高了其扩展性和测试时的可控性。更多细节请参阅补充材料。
数据集
评估指标 作者采用了(Zhu等人,2017年)的评估指标,这些指标包括了生成图像的质量和它们的视觉一致性。此外,作者还强调了语义一致性,以反映不同语义类别合成的质量。
除了这些指标,作者还进行了人工分析。作者请人类评判员在提供不同方法的结果时,决定哪种方法在视觉上更真实和一致。方法对人类评判员和比较时都是匿名的。并且作者
确保相同的输入控制信号被提供给各种方法。同时,作者还进行了实例 Level 的可控性实验。提供给人类目标物体及其目标颜色,以及生成的图像。他们将投票决定生成的物体是否符合要求。** Baseline 方法** 作者选择了以下四种最先进的方法作为作者的 Baseline ,以进行彻底的比较:
作者的鸟瞰图(BEV)语义
作者在表1中比较了作者的MVPbev与 Baseline 方法,并报告了性能表现。表中第一行是在 GT 图像上获得的结果。例如,作者将 GT 验证图像分成两半,然后通过将一半作为真实图像,另一半作为生成图像来计算FID分数。至于IoU分数,作者在验证图像上应用了Mask2Former (He等人,2016)和CVT (Wang等人,2017),并将它们的预测与 GT 值
在可比的 Baseline 方法中总是排名第一,例如Controlnet和MVD。即便与那些使用了远多训练数据的SOTA方法相比,作者也取得了可比较的结果。
作者还提供了与现有 Baseline 方法的视觉对比,如图6所示。第一行展示了鸟瞰语义
定性结果 除了定量结果,作者还提供了图7中的定性示例。从该图中可以看出,作者的MVPbev能够从不同的鸟瞰语义和文本提示生成视觉上一致的图像。与 GT 情况相比,作者的方法在重叠的视场区域取得了满意的连贯性。更多关于对鸟瞰和文本提示可控性的视觉示例,请参阅补充材料。
测试时的可控性和泛化能力
视点泛化能力
如前所述,现有工作的主要缺点之一是在测试时处理视点变化的能力不足。为了展示作者的能力,作者在推理过程中调整了摄像机外参,并检查结果是否相应地发生变化。实际上,作者将所有
目标级可控性 一个实用的生成模型应当是可控的。为此,作者进行了另一项实验来展示目标级的可控性。在这个实验中,作者在原始文本提示中包含了目标颜色的额外描述,然后在测试时检查这种控制是否能反映在生成的场景中。在实验中,作者随机选择了151组图像,包含了195个目标实例,并为车辆提供了七种流行颜色中的随机颜色请求。作者分别在图9中报告了定性评估,在图10中提供了定性示例。尽管Delta-E似乎很明显,作者认为这主要是由于去噪过程中车辆颜色与环境协调所致,例如在雨天颜色较不鲜艳。作者的视觉结果以及人工分析支持这一点。
人工分析 与评估指标相比,人工分析为图像质量测量提供了更可靠的工具。因此,作者对任务进行了全面的人工分析。具体来说,作者向人类提供了两组生成的图像,这些图像是由两种不同的方法使用相同的输入信号生成的。然后作者让他们判断哪组图像更好,考虑到图像质量和视觉一致性。如表1所示,作者的MVPbev显著优于 Baseline ,表明作者确实能够生成既真实又一致的图像。同时,作者通过将作者的方法与MagicDrive(MagicDrive,2019)进行比较,报告了测试时的视角变化,表明MVPbev在定量上提供了更好的泛化能力。最后,作者让人类判断生成的实例颜色是否可以视为所要求的颜色。在作者的实验中,有93.5%的实例被投票认为生成正确。关于人工分析的更多细节,作者请读者参考附录。
作者的目标是根据给定的鸟瞰图(BEV)语义,生成多视角的透视RGB图像。
为此,作者提出了一种两阶段方法MVPbev,首先将BEV语义投影到透视视图中,然后根据文本提示和单个透视语义进行图像生成。
具体来说,作者提出了一种新颖的初始化和去噪过程,以明确地在重叠视场(FOVs)中强制执行局部一致性。
实验结果显示,在不同指标下,MVPbev表现出卓越的性能,并且在测试时具有泛化能力。
扫描下方二维码,添加 AI驾驶员
获取更多的
大模型
与
多模态
等信息
|
湖畔大学 · 浙商年会 ,马云年终总结:无论何时,都要有“四个坚持”(内附音频) 8 年前 |
|
派代 · 赚钱、女人、管理,马云最喜欢的11个内涵段子 8 年前 |
|
知心 · 愿这些美好,能温暖你的流年。 7 年前 |
|
高达模型制作技巧 · 【欣赏】喜闻乐见 新安洲 7 年前 |
|
清南师兄 · 【学霸访谈第30期】你单身,我单身,那不如...... 7 年前 |