专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

哈工大 & 杭州电子大学提出 MVPbev | 多视角图像生成框架,实现BEV到透视视图的精确转换 !

智驾实验室  · 公众号  ·  · 2024-08-07 08:00

正文

请到「今天看啥」查看全文


ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

作者提出了MVPBEV,一种新颖的从鸟瞰图(BEV)生成多视角透视图像的方法,该方法在测试时具有可控性和泛化性。MVPBEV能够通过直接从数据中学习多视角图像的潜在分布来合成各种视角的图像。

作者方法的关键优势在于,它允许用户在测试时控制生成图像的视角,这对于增强现实和机器人技术等应用至关重要。

此外,MVPBEV在不同领域和尺度上展现出很强的泛化能力,适用于广泛的应用场景。作者通过在合成数据集和真实世界数据集上的大量实验验证了该方法的有效性,证明了其在图像质量和视角控制方面的优越性。本研究旨在解决给定鸟瞰图(BEV)语义情况下,多视角生成基于文本提示的RGB图像的问题。

与先前忽视布局一致性、缺乏处理详细文本提示能力或无法泛化到未见视角的方法不同,MVPbev采用两阶段设计,同时生成不同视角视图的跨视角一致性图像,允许在测试时进行目标级控制和生成新视角。具体来说,MVPbev首先利用相机参数将给定的BEV语义投影到透视视图中,使模型能够泛化到未见视角。

然后作者引入一个多视角注意力模块,其中特别初始化和去噪过程被用来显式地加强跨视角单应性下重叠视图之间的局部一致性。最后但同样重要的是,MVPbev进一步通过细化一个预训练的文本到图像扩散模型,允许测试时的实例级可控性。

在NuScenes上的大量实验表明,作者的方法能够从包含数千个训练样本的文本描述中生成高分辨率的逼真图像,并且在各种评估指标下超越了现有技术水平。

作者进一步借助新的评估指标和全面的人工分析,展示了作者方法在泛化能力和可控性方面的进步。

1. 引言

多视角透视图像对自动驾驶任务有益。如今,多视角摄像头,包括前向和侧向安装的摄像头,已成为大型驾驶数据集如 NuScenes、Argoverse 的基本要求。通常,来自多个摄像头视角的图像被感知并进一步以鸟瞰图(BEV) 的形式表示,随后进行预测和规划等下游任务。直观地说,BEV因其为现实世界提供了可触摸的界面,从而更具可解释性,对高级建模和决策制定是有益且实用的。

尽管在自动驾驶任务中具有重要意义,但可靠的BEV表示在训练阶段需要大量的数据,这可能导致获取或标注耗时较长。解决这一数据问题的直观方法是通过生成模型获取多样性的透视RGB图像以及相应的BEV语义。与对应的透视RGB图像或语义相比,在参数表示的帮助下,多样的且可信的BEV语义更容易以真实的方式进行模拟(Waymo,2019年)。为此,自然且实际的做法是假设给定的是BEV语义,而不是透视RGB图像。那么剩下的问题就是,在已知BEV语义的情况下,生成跨视角在视觉和语义上一致的照片级真实RGB图像。

尽管受约束的生成模型取得了进展,但现有尝试解决跨视角图像生成问题的方法存在三个主要缺点。首先,现有框架严重依赖训练样本,导致测试时的可控性不理想。例如,改变摄像头姿态或在目标实例上提供额外的控制超出了现有技术的范围。此外,跨视角一致性没有得到良好执行,导致重叠视场中的视觉效果不一致。最后,在图像生成任务上没有进行彻底的人工分析,导致比较结果不可解释。

为了实现这一目标,作者提出了一种新颖的两阶段方法MVPbev,旨在通过明确实施跨视图一致性(见图1),生成具有给定BEV语义和文本提示的可控多视图透视RGB图像。与现有研究在测试时缺乏泛化能力不同,MVPbev进一步允许在测试时进行视点及详细文本提示的更改,在无需额外训练数据的情况下,通过人工分析提供了满意的性能。为此,MVPbev包括两个阶段:视图投影和场景生成阶段。前者根据相机参数将给定的BEV语义转换为多个透视视图。一方面,它通过明确的几何变换在视图间实施全局一致性;另一方面,这种设计将两个阶段解耦,使得第二阶段能够更好地捕捉视点不变属性。MVPbev的第二阶段从一个预训练的稳定扩散(SD)模型开始。通过明确结合跨视图一致性模块,以及作者设计的噪声初始化和去噪过程,它能生成在重叠视场(FOV)中视觉一致且逼真的多视图图像。为了进一步提高测试时对物体的泛化能力,作者的MVPbev分别处理前景实例和背景布局,从而在推理过程中实现更好的可控性。

作者在NuScenes(Chen等人,2017年)数据集上验证了作者的想法,并遵循标准的划分。与那些专注于下游任务改进或语义一致性的方法不同,作者包括了额外的人工分析,特别是在多个视图中的重叠FOV上的视觉一致性,以及测试时视点和文本提示的变化。作者证明,作者提出的方法不仅提供了更好的测试时可控性和泛化能力,还能生成高质量的跨视图RGB图像。

总之,作者的贡献可以总结如下:

  • 一种新颖的多视图图像生成方法,能够仅使用数千张图像作为训练数据,从BEV语义生成在语义和视觉上均一致的多视图透视RGB图像。
  • 一种更可控且可扩展的算法,能够生成逼真的透视RGB图像。
  • 在大型驾驶数据集上取得了最先进的性能,并通过全面的人工分析进行了验证。

2. Related Work

条件图像生成 生成模型,例如高斯混合模型(Xu等人,2019年)和贝叶斯网络(Xu等人,2019年),一直是机器学习和计算机视觉领域长期的研究问题,因为它能够解释复杂数据分布。特别是,图像生成模型不仅对无监督特征学习至关重要,还使得图像编辑等应用成为可能。随着深度学习技术的兴起,如自回归模型(Chen等人,2017年)、变分自编码器(VAEs)和生成对抗网络(GANs)(Chen等人,2018年),以及大量数据的涌现,作者观察到了具有非常好质量的逼真图像。其中,条件GANs得到了广泛研究,各种约束条件被纳入考虑,包括离散标签、文本和图像。最近,稳定扩散模型(Xu等人,2019年)被广泛用于根据文本描述生成详细图像。与之前的艺术作品相比,它们不仅展示了最先进的图像生成质量,还借助基础模型(Chen等人,2019年)展示了出色的泛化能力。后来,Controlnet 通过允许一组多样的条件控制,例如深度、语义或草图,极大地提升了扩散模型的总体性能,同时没有丧失原有的鲁棒性。尽管取得了令人印象深刻的进展,但多视图或跨视图文本到图像生成仍然面临计算效率和跨视图一致性等问题。为此,MVDiffusion(Wang等人,2019年)提出了一种新的对应关系感知注意力模块,从文本中创建多视图图像,同时保持全局对应关系。尽管MVDiffusion提供了优质的多视图RGB图像,但它未能推广到更剧烈的视点变化或较小的重叠区域。或许同时期的工作,包括BEVGen 和 MagicDrive 与作者的工作最为接近。第一个模型基于BEV语义生成多视图视觉一致的图像,通过使用带有跨视图注意力的自回归 Transformer 。而后两个模型处理图像草图/语义和文本,并利用跨视图跨目标注意力更关注个体内容的一致性。然而,现有工作都没有允许测试时的泛化能力,例如视点变化或详细的实例级文本提示。它们也没有对图像生成质量进行人为分析。相比之下,作者提出利用全局和局部一致性来利用语义和视觉连贯性,并结合作者无需训练的目标控制方法来加强详细的实例级控制。此外,作者还提供了全面的人为分析,以更可靠地证明作者方法的有效性。

新型视图图像合成 新型视图图像合成方法可以分为基于几何和基于学习两大类。前者试图首先估计(或伪造)近似的基础3D结构,然后对输入图像中的像素应用一些变换以生成输出。而后者认为新型视图合成从根本上是一个学习问题,否则它会严重缺乏约束。最近,属于后一类的神经辐射场(NeRF)(Kirshfeld等人,2018年)通过神经网络隐式编码体积密度和颜色,已经在特定场景的新型视图合成上展示了令人印象深刻的性能。从小型规模 开始,也提出了场景级NeRFs,例如Block-NeRF,通过重建大规模环境,使得重要用例,例如自动驾驶和航空勘测成为可能。相比之下,作者的方法将BEV语义和文本描述作为输入,输出多视图透视RGB图像。

3. Our Method

作者的方法旨在根据给定的像素级鸟瞰图(BEV)语义对应关系,从文本提示生成多视角透视图像。具体来说,作者将BEV语义表示为 ,其中假设 ego 车位于中心。 分别表示 的高度、宽度和语义类别数。作者的目标是生成一组分辨率为 by 的透视 RGB 图像,即特定的 ,在 个虚拟相机视角下。第 个透视图像表示为 ,其中 。特别地,作者假设第 个相机的内参、外参旋转和翻译是已知的,分别表示为

如上所述,作者通过在隐式和显式方式下利用全局和局部一致性,获得了视觉上连贯的多视角图像。具体而言,作者的方法包括两个阶段。第一阶段以 BEV 语义 以及 作为输入,并将 BEV 语义根据各自的相机参数集投影到每个透视视图中,第 个视图的表示为 。第二阶段解析 和文本提示作为输入,并从 个透视视角生成 RGB 图像。

图3. 作者展示了作者的 BEV 投影过程。给定一个 BEV 语义图 ,作者将其投影到多个透视视图中。为了更好的比较,作者在透视视图中将语义叠加在原始 RGB 图像上。

图2. MVPbev 包括两个阶段。第一阶段使用相机参数将 BEV 语义投影到透视视图中,以保持全局语义一致性。第二阶段解析透视语义和文本提示,并通过在潜在空间中显式强制实现多视角图像的视觉一致性和测试时实例级控制。

表示从第 个视角生成的 RGB 图像。更具体地说,作者的第一个投影阶段在几何变换的帮助下,显式地强制 BEV 和透视视图之间保持全局语义一致性。同时,生成阶段通过多视角注意力模块在重叠的透视视图之间隐式地施加一致性。最后,作者提出了一种显式强制重叠视场中的视觉线索与新颖的训练初始化和去噪设计保持一致的方法。MVPbev 的整体流程如图2所示。作者在第3.1节和第3.2节分别提供第一和第二阶段的更多细节。第3.3节描述了模型训练过程。

Semantic-consistent view projection

假设可以通过现有的模拟方法(Zhu等人,2017年)轻松获得多样化且可信的鸟瞰图(BEV)语义 ,作者方法需要解决的首要基本问题是从 到透视图像集合 维持跨视图的语义一致性。其次,重叠视场内的内容也应当保持连贯。例如,不仅是背景类别,如建筑物或树木,前方的道路参与者也应该在不同视图中呈现相似的外观。为此,作者首先提出使用相机参数将BEV语义投影到 个透视视图中,生成了 透视语义。与现有工作(Zhu等人,2017年)相比,作者的投影步骤借助几何约束确保了BEV与透视视图之间的语义一致性,从而在生成步骤中减少了累积错误(见图3中的示例)。

View consistent image generation

仅从单个视角语义出发可能会导致不同视图间的内容不一致,尤其是在重叠的视场(FOV)中。例如,在不同视图(如前、前右、后、后左)的FOV中出现的建筑物和植被具有不同的外观。这是由于跨视图相机之间缺乏互动所致。作者注意到,这种不一致不会反映在鸟瞰图(BEV)布局分割或目标检测指标中,因为它只影响背景类别。

基于此,作者从方法和实验上关注这些重叠区域。就作者的方法而言,作者在重叠区域通过估计单应性来对背景内容施加强烈的连贯性约束,然后使用多视图注意力模块隐式地使不同视图的风格相对于估计的对应点保持一致。在这种情况下,外观一致性不仅可以在提供语义的背景布局区域强制执行,也可以在没有控制信号的其他区域执行。至于评估,作者引入了人工分析,以提供关于生成的图像(尤其是重叠区域)是否真实的可靠评估。作者证明,作者提出的方法很好地解决了背景一致性问题(定量和定性结果见第4节)。

单应性估计 作者首先通过估计重叠区域来在重叠的FOV中强制视觉一致性。为此,作者提出在具有重叠FOV的图像之间计算单应性。如许多驾驶数据集所示,一个视图通常会与其左右两侧的视图重叠。因此,对于第 个视图,作者只需要考虑 ,分别是第 个视图的左右视图。然后作者估计从视图 到视图 的单应性,并将映射函数表示为 。因此, -th视图中的 坐标将被映射到 视图中的坐标 。即 。同样,作者定义了一个逆映射 ,它将 中的 映射到 中的

多视角注意力模块 什么使得一组视图显得不真实?首先且最重要的是图像之间的不一致性。换句话说,真实的视图必须显得一致,就像它们是在同一物理位置、一天中的同一时间拍摄的。更具体地说,这一组图像的视觉风格需要保持一致,使它们看起来都像是创建在同一个地理区域(例如,城市与乡村)、同一时间段,并且具有相同的天气条件等。为此,作者引入了一个多视角注意力模块,以便在从第 个视角生成RGB时,考虑其左右两侧的视图。对于位于由第 个视角生成的特征图 中位置 的标记,作者基于由视角 生成的特征图中对应的像素 计算注意力输出,其中 表示以 为中心的 区域。在数学上,作者遵循与(Zhu et al., 2017)类似的公式化表述,并定义作者的多视角注意力模块为:

在这里, 分别是 Query 、键和值矩阵的可学习权重。 。作者进一步将 定义为基于 之间的2D位移对 进行位置编码。如方程1所示,作者的多视角注意力模块旨在从目标特征像素 聚合信息到 。作者在图4中提供了作者多视角注意力模块的简单说明。

Model training and inference

为了训练作者的模型,作者引入了一种多视角潜在扩散模型(LDMs)(Zhu等人,2017)损失。基本上,原始LDMs包括一个变分自编码器(VAE),具有编码器 和解码器 ,一个去噪网络 和一个条件编码器 。输入图像 通过 映射到潜在空间,其中 。作者遵循常规设置 ,它们都等于8。之后,潜在变量将通过 转换回图像空间。去噪网络 是一个时间条件性的UNet,它利用跨注意力机制来结合条件编码 。在作者的案例中, 包括文本提示和视角视图 中的语义。

对于每个训练步骤,作者首先从1到 统一为所有多视角图像 采样一个共享的噪声水平 ,表示为 。且 。为了利用跨视角的一致性,作者进一步确保如果它们对应于同一像素,这些噪声是相同的。从第一个视角开始,即 ,作者将坐标 的值重新分配给 。作者重复这个过程,直到 。作者在图5中提供了作者初始化的 的一个示例集。最后,作者的模型训练目标定义为:

其中 是对第 张图像的估计噪声。作者使用 来表示第 张图像的带噪潜在表示。

在采样时,去噪(逆向)过程在潜在空间中生成样本,解码器 通过一次前向传播产生RGB图像。为了融入作者的观点,即即使在不同的视图中,重叠区域的像素在视觉上也应该是相似的,作者再次采用了值分配过程。与噪声初始化步骤类似,作者将 在坐标 的值重新分配给 。这个重新分配从 开始,直到 等于1为止。在实验中,作者观察到如果将作者的设计应用于最多 的去噪步骤,可以提高视觉结果;否则,性能会下降。

推理 如上所述,MVPbev可以扩展到实例 Level 的可控性。具体来说,作者的MVPbev允许用户点击目标实例并提供特定颜色的要求。为了实现这一点,作者提出了一种特殊的机制来控制多个前景物体,该机制通过操纵交叉注意力层的响应,精确指导实例级合成。假设在每个视图中,可以通过现有方法(Brock等人,2017年)或简单的检索获得实例级 Mask 。具体而言,作者首先使用其配对提示分别获取实例级和场景级潜在变量。然后,它们与这些二进制的实例级 Mask 有效地结合,导致更加空间一致的性能。请注意,MVPbev对前景物体的这种能力是不需要训练的,这大大提高了其扩展性和测试时的可控性。更多细节请参阅补充材料。

4. Experiment

数据集

评估指标 作者采用了(Zhu等人,2017年)的评估指标,这些指标包括了生成图像的质量和它们的视觉一致性。此外,作者还强调了语义一致性,以反映不同语义类别合成的质量。

  • 图像质量 通过Frechet初始距离(FID)(He等人,2016年)、初始得分(IS)(Szegedy等人,2015年)和CLIP得分(CS)(Szegedy等人,2015年)来衡量。特别是,FID基于生成图像和真实图像特征之间的分布相似性。IS衡量生成图像的多样性和可预测性。最后,CS根据预训练的CLIP模型(Szegedy等人,2015年)衡量文本和图像的相似性。
  • 视觉一致性 对重叠区域的像素级相似性进行测量。作者从峰值信噪比(PSNR)中借鉴了这个想法,首先计算所有重叠区域的PSNR,然后将这个“重叠PSNR”在真实图像和生成图像之间进行比较。这个值越高,视觉一致性越好。需要注意的是,计算“重叠PSNR”的过程基于估计的单应性矩阵,生成图像可能比真实图像产生更高的值。
  • 语义一致性 衡量生成图像和真实图像之间的像素级语义一致性。在作者的案例中,作者利用交并比(IoU)得分。特别是,作者报告了透视视图和鸟瞰图(BEV)中的语义IoU。对于前者,作者在生成图像上应用预训练的分割模型(Brock等人,2017年),在透视视图中得到语义预测。将这些预测与 进行比较,得到透视视图中的IoU。对于后者,作者在生成图像上应用预训练的CVT(Wang等人,2019年),并通过比较CVT的预测与 来得到BEV的IoU。
  • 目标级可控性 衡量目标实例相对于测试时描述生成的准确性。这里作者报告了CIELAB色彩空间中的平均色彩距离Delta-E以及它们的标准差。

除了这些指标,作者还进行了人工分析。作者请人类评判员在提供不同方法的结果时,决定哪种方法在视觉上更真实和一致。方法对人类评判员和比较时都是匿名的。并且作者

确保相同的输入控制信号被提供给各种方法。同时,作者还进行了实例 Level 的可控性实验。提供给人类目标物体及其目标颜色,以及生成的图像。他们将投票决定生成的物体是否符合要求。** Baseline 方法** 作者选择了以下四种最先进的方法作为作者的 Baseline ,以进行彻底的比较:

  • SD+ControlNet(Liu等人,2019;Wang等人,2020)是一种基本但强大的图像生成模型。具体来说,作者处理投影后的 以避免不同视角的域差距。从预训练的ControlNet(Wang等人,2020)开始,这个 Baseline 在NuScenes训练集上进行微调。
  • MVDiffusion(Zhou等人,2019)旨在生成多视角一致的图像。然而,它既不是为剧烈视角变化(例如,从鸟瞰图到透视视图)设计的,也不支持语义控制信号。为此,作者首先将鸟瞰图语义映射到透视视图,然后使用预训练的ControlNet(Wang等人,2020)主干更新MVDiffusion。具体来说,作者基于官方代码重新实现了(Zhou等人,2019)并在NuScenes训练图像上进行微调。
  • BEVGen(Liu等人,2019)是走向道路场景生成的第一步,其中控制信号仅限于鸟瞰图语义和相机参数。整个数据集用于训练。
  • MagicDrive(Chen等人,2019)是最近发布的关于道路场景生成的工作。作者使用他们发布的模型进行有效比较。请注意,作者仅使用从数据集中均匀抽取的20%的图像进行训练,而他们使用整个数据集。

Implementation Details

作者的鸟瞰图(BEV)语义 反映了以80米×80米空间为中心的自车位置。 代表了NuScenes中的可行驶区域。透视图像的分辨率为 ,导致 。至于超参数,作者将 分别设置为6和3。作者使用PyTorch(Paszke等人,2017年)实现了该系统,同时使用了公开可用的Stable Diffusion代码(Paszke等人,2017年)。具体来说,它包括一个去噪UNet,在压缩的潜在空间内执行去噪过程,以及一个VAE连接图像和潜在空间。作者保留了Stable Diffusion预训练VAE的官方权重,用于在训练阶段编码图像,并在推理阶段将潜在代码解码为图像。在实验中,作者使用配备了1个NVIDIA A40 GPU的机器进行训练和推理。批量大小设置为6, 等于50。

Multi-view BEV generation

作者在表1中比较了作者的MVPbev与 Baseline 方法,并报告了性能表现。表中第一行是在 GT 图像上获得的结果。例如,作者将 GT 验证图像分成两半,然后通过将一半作为真实图像,另一半作为生成图像来计算FID分数。至于IoU分数,作者在验证图像上应用了Mask2Former (He等人,2016)和CVT (Wang等人,2017),并将它们的预测与 GT 值 进行比较。从表中可以看出,作者的MVPbev几乎

在可比的 Baseline 方法中总是排名第一,例如Controlnet和MVD。即便与那些使用了远多训练数据的SOTA方法相比,作者也取得了可比较的结果。

作者还提供了与现有 Baseline 方法的视觉对比,如图6所示。第一行展示了鸟瞰语义 以及透视视图中的投影语义 。从第二行到第五行,作者提供了 GT 情况以及其他方法生成的多视角图像。与其它 Baseline 方法相比,作者的MVPbev方法产生了最为一致透视图像,尤其是在重叠的视场区域。正如橙色边框和绿色线条所强调的,作者的MVPbev不仅生成了与语义指导一致的透视图像,而且在多个视图间保持了高视觉一致性。这种一致性对于在不同视图中出现的像素来说更加明显和有价值。

定性结果 除了定量结果,作者还提供了图7中的定性示例。从该图中可以看出,作者的MVPbev能够从不同的鸟瞰语义和文本提示生成视觉上一致的图像。与 GT 情况相比,作者的方法在重叠的视场区域取得了满意的连贯性。更多关于对鸟瞰和文本提示可控性的视觉示例,请参阅补充材料。

测试时的可控性和泛化能力 视点泛化能力 如前所述,现有工作的主要缺点之一是在测试时处理视点变化的能力不足。为了展示作者的能力,作者在推理过程中调整了摄像机外参,并检查结果是否相应地发生变化。实际上,作者将所有 个摄像机绕着 ego 车的 Head 方向旋转 ,模仿可能的摄像机安装的不同设置。这相当于改变了作者输入信号中的 。作者为每个旋转角度随机生成了200组图像,并将MagicDrive(MagicDrive, 2019)和作者的生成结果提供给人类评估。定性结果在图8中提供。作者在每个视图中叠加了投影语义以便更好地可视化。不出所料,现有技术仅仅遵循控制信号。而MVPbev在考虑语义方面给出了更优越的结果,展示了更好的测试时泛化能力。这一观察也得到作者详细的人类分析表1的支持。

目标级可控性 一个实用的生成模型应当是可控的。为此,作者进行了另一项实验来展示目标级的可控性。在这个实验中,作者在原始文本提示中包含了目标颜色的额外描述,然后在测试时检查这种控制是否能反映在生成的场景中。在实验中,作者随机选择了151组图像,包含了195个目标实例,并为车辆提供了七种流行颜色中的随机颜色请求。作者分别在图9中报告了定性评估,在图10中提供了定性示例。尽管Delta-E似乎很明显,作者认为这主要是由于去噪过程中车辆颜色与环境协调所致,例如在雨天颜色较不鲜艳。作者的视觉结果以及人工分析支持这一点。

人工分析 与评估指标相比,人工分析为图像质量测量提供了更可靠的工具。因此,作者对任务进行了全面的人工分析。具体来说,作者向人类提供了两组生成的图像,这些图像是由两种不同的方法使用相同的输入信号生成的。然后作者让他们判断哪组图像更好,考虑到图像质量和视觉一致性。如表1所示,作者的MVPbev显著优于 Baseline ,表明作者确实能够生成既真实又一致的图像。同时,作者通过将作者的方法与MagicDrive(MagicDrive,2019)进行比较,报告了测试时的视角变化,表明MVPbev在定量上提供了更好的泛化能力。最后,作者让人类判断生成的实例颜色是否可以视为所要求的颜色。在作者的实验中,有93.5%的实例被投票认为生成正确。关于人工分析的更多细节,作者请读者参考附录。

5. Conclusion

作者的目标是根据给定的鸟瞰图(BEV)语义,生成多视角的透视RGB图像。

为此,作者提出了一种两阶段方法MVPbev,首先将BEV语义投影到透视视图中,然后根据文本提示和单个透视语义进行图像生成。

具体来说,作者提出了一种新颖的初始化和去噪过程,以明确地在重叠视场(FOVs)中强制执行局部一致性。

实验结果显示,在不同指标下,MVPbev表现出卓越的性能,并且在测试时具有泛化能力。



扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息








请到「今天看啥」查看全文