扩散模型的迅速发展极大地提高了视频生成,尤其是在可控视频生成方面,这对自动驾驶等应用至关重要。
然而,现有方法受到可扩展性和控制条件集成方面的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。
在本文中,作者提出了一个新颖的方法MagicDriveDiT,基于DiT架构,并解决了这些挑战。作者的方法通过流匹配提高可扩展性,并采用渐进训练策略来管理复杂场景。通过结合空间-时间条件编码,MagicDriveDiT实现了对空间-时间潜在的精准控制。
综合实验表明,它生成的具有更高分辨率和更多帧的实时街道场景视频具有更出色的性能。
MagicDriveDiT显著提高了视频生成质量和空间-时间控制,扩大了其在自动驾驶各种任务中的应用潜力。
1 Introduction
随着扩散模型的快速发展,视频合成取得了显著的进步。可控制的视频合成[16,20]极大地简化了在多个下游应用中使用合成数据的过程。尤其是在自动驾驶领域,像MagicDrive[11]和DriveDreamer[35]这样的技术,证明了可控制的多视角视频合成,能够生成高质量街道视图视频,有效地辅助下游任务,并提高自动驾驶系统的性能和可靠性。
高分辨率与长时间的视频合成是内容生成领域研究的一个重点,并且高度需求于自动驾驶技术。具体来说,自动驾驶感知模型需要高分辨率的输入来分辨数据中的细节和远距离物体。将视频合成应用于3D重构同样需要高分辨率来捕捉复杂的细节。另一方面,长时间的视频提供了更丰富的内容,以便更全面地评估自动驾驶算法[42]。从技术角度来看,高分辨率是提高生成质量的一种简单方法[5],而长时间的视频包含了更多的动态内容[40],有助于模型有效地学习世界的规律[3]。
然而,合成高分辨率的长视频面临两个主要挑战。首先,数据量的增加要求生成模型具有高可扩展性,以有效支持高质量合成。其次,视频生成的几何控制也面临巨大挑战。以前的可控技术主要针对图像生成,专注于空间潜在空间。实现高分辨率长视频合成需要一个集成空间和时间信息的3D压缩VAE[3, 19, 43, 47]。利用空间-时间潜在信息使以前的方法变得不充分,如图2所示。这需要新颖的方法有效地管理合成视频中的元素,确保在给定条件下实现空间和时间的连贯性。
在本文中,作者提出了一种新颖的方法 _MagicDriveDiT_,该方法基于DiT(Differentiable Timestep)架构,旨在解决高分辨率长街景视频合成的上述挑战,同时实现精确控制。作者采用扩散模型[9]的流匹配[9]公式,并将其与基于DiT的架构[30, 47]相结合,以提高可扩展性。这提高了模型在处理跨多种场景的复杂数据时的效率。为了提高可控制性,作者使用专门设计的空间-时间条件编码[43]对CogVAE[43]产生的空间-时间潜在值进行精确管理。此外,作者采用逐步bootstrap策略进行模型训练,从短到长视频转变,使模型能够捕捉到复杂的细节并泛化到复杂的场景。此外,作者利用各种分辨率和长度的视频来增强模型的泛化能力,使模型能够合成比训练视频更长的视频。
作者开发的
MagicDriveDiT
在生成符合道路地图、3D边界框和不同相机视角的高度逼真的视频中表现出色,实现了比以前的作品更高的分辨率和更多帧数。全面的实验和比较证明了作者的训练和控制方法的有效性,显著提高了可控制街道视图合成的效果。_MagicDriveDiT_ 在处理各种分辨率和帧数以及控制信号方面的灵活性,使其能够创建适合模拟的新街道视图,从而扩展了其在不同领域的潜在应用。
总结起来,本文的主要贡献包括:
作者设计了一个高效的框架 MagicDriveDiT,利用渐进式回归训练实现高质量高分辨率长视频生成。
作者开发了一种新颖的空间-时间控制方法,用于控制物体的位置、道路语义和摄像机轨迹,同时保持多帧、多视角的一致性。
作者的模型通过混合分辨率和持续训练,从图像生成视频,具有外推能力,显著超过了以前工作的分辨率和帧数。
2 Related Work
自动驾驶中的视频生成至关重要,其在感知模型训练[11]、测试[42]和场景重建[10, 45]等领域得到应用。这需要广泛的视野和处理动态目标运动,需要生成模型可控性和高分辨率视频制作[22],具有更多帧[10]和多个摄像头视角[45]。扩散模型已经提高了可控的多视图视频生成,但现有模型[18, 27, 38, 39, 46]在数据引擎应用[10, 11, 45]和策略测试[17]方面缺乏足够的分辨率和帧数。与表1中的比较,作者的工作《MagicDriveDiT_》在自动驾驶视频生成方面实现了前所未有的分辨率和帧数。
扩散模型与DiT架构
扩散模型[13, 32, 48]通过学习从高斯噪声到样本的去噪步骤来生成数据,广泛应用于图像[8, 31, 37]和视频生成[14]。从建模的角度看,流匹配[9, 23]简化了扩散模型的建模,提高了训练和推理的效率。从实现的角度看,扩散模型的架构从UNet[13]转变为DiT,由于更好的可扩展性[6, 30],尤其是在高分辨率任务[5]上。作者的_MagicDriveDiT_也利用流匹配和DiT实现高分辨率和大视频生成的扩展。
条件生成
。条件生成对于利用生成模型的各种应用至关重要。LDM [31]的交叉注意力层和ControlNet的[44]附加编码的网格形控制信号是可控制扩散生成方法中的领先方法。在街景生成中,MagicDrive [11]和MagicDrive3D [10]将3D边界框、BEV地图、 ego轨迹和相机姿势集成,用于多视图街景合成。然而,这些方法仅限于空间编码,不直接适用于空间-时间VAE潜在值[43],如图2所示。_MagicDriveDiT_提出了一种新的控制范式,用于压缩时空VAE潜在值,实现可控的高分辨率长时间视频生成。
3 Preliminary
问题提出。本文讨论了从潜在变量
生成可控的高分辨率、长视频的街道视图。给定一系列帧描述
,目标是生成相应的街道视图视频,即
,其中
表示
个摄像机视图。这里,高分辨率表示
具有高分辨率,长视频表示
较大。
为了描述街景视频,作者采用了[10, 11]中提出的条件。
LDMs和流匹配
。对于高分辨率图像生成,Rombach等人[31]提出了一种名为潜在扩散模型(LDMs)的方法,该方法使用预训练的VAE进行图像降采样,并使用扩散模型进行潜在生成。这种方法在图像生成[6, 9]和视频生成[1, 3, 47]等领域得到了广泛应用。《MagicDriveDiT》也基于VAE+扩散公式。随着扩散模型技术的最新进展,Esser等人[9]提出了一种通过模拟无关的直接流[24, 25]和v-预测损失[9]来训练大规模扩散模型的方法:
论文中提到,时间步长
服从对数正态分布