专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

无需训练！多提示视频生成最新SOTA！港中文&腾讯等发布DiTCtrl：基于MM-DiT架构

极市平台 · 公众号 · · 2024-12-29 22:00

正文

↑ 点击蓝字关注极市平台

作者丨AI生成未来

来源丨AI生成未来

编辑丨极市平台

极市导读

腾讯等机构提出的DiTCtrl模型，这是一个基于MM-DiT架构的多提示视频生成方法，首次实现了无需额外训练的动态条件选择。DiTCtrl通过引入KV共享机制和隐混合策略，确保了不同提示之间的平滑过渡和一致的对象运动，展现出在视频生成任务中的优越性能，同时提出了MPVBench作为新的评估框架。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

文章链接： https://arxiv.org/pdf/2412.18597

项目链接： https://github.com/TencentARC/DiTCtrl

亮点直击

DiTCtrl ，这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略，使得不同提示之间能够无缝过渡，且无需额外的训练。

首度分析了MM-DiT的注意力机制，发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为，从而实现了基于mask的精确语义控制，使得不同提示之间的生成更加一致。

推出了MPVBench，这是一个专为多提示视频生成设计的新基准，具有多种过渡类型和专门的评估指标，用于多提示视频的评估。-大量实验表明，本文的方法在多提示视频生成任务上实现了业界领先的性能，同时保持了计算效率。

总结速览

解决的问题
当前的视频生成模型，尤其是基于单一提示（single-prompt）的模型，如Sora，主要聚焦于生成单一提示下的视频内容。它们在生成多个顺序提示（multi-prompt）的连贯场景时存在显著挑战，尤其是在动态场景中需要反映多个动作时，面临的问题包括：

训练数据要求严格；
提示跟随能力较弱；
转场不自然，缺乏平滑过渡。

提出的方案 本文提出了 DiTCtrl 方法。这是基于MM-DiT架构的、训练无关的多提示视频生成方法，首次能够在没有额外训练的情况下生成多提示的视频，且能够保证多个提示之间的视频内容平滑过渡。

应用的技术

MM-DiT架构 ：多模态扩散Transformer（Multi-Modal Diffusion Transformer）架构被用于视频生成任务，能够有效处理文本、图像和视频的联合表示。
3D全注意力机制 ：分析了MM-DiT的注意力机制，发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力模块相似，能够在多个提示之间共享注意力，从而实现语义一致性。
KV共享和隐混合策略 ：为实现视频之间的平滑过渡，提出了键值共享（KV-sharing）机制和隐空间混合（latent blending）策略，以连接不同提示生成的视频片段。

达到的效果

平滑过渡与一致性 ：通过DiTCtrl方法，生成的视频在多个提示之间能够实现平滑的过渡和一致的物体运动，而不需要额外的训练。
高效性能 ：在MPVBench基准测试上，DiTCtrl在保持计算效率的同时，取得了最先进的性能。
新基准MPVBench ：为了促进多提示视频生成的研究，文章还提出了MPVBench基准，专门用于评估多提示视频生成的过渡效果和性能。

方法

本文解决了zero-shot、多提示长视频生成的挑战, 无需模型训练或优化。这使我们能够生成高质量的视频，具有平滑和精确的提示间过渡，涵盖各种过渡类型（例如，风格、镜头运动和位置变化）。形式上, 给定一个预训练的单提示文本到视频扩散模型和一个包含个提示的序列 , 所提出的DiTCtrl能够生成一个连贯的长视频 , 该视频能够随时间忠实地跟随这些提示, 可以表示为:

MM-DiT 注意力机制分析

MM-DiT 是当前文本到图像/视频模型的基础架构，与之前的 UNet 架构有根本的不同，因为它将文本和视频映射到一个统一的序列中进行注意力计算。尽管该架构已被广泛使用，但其内部注意力机制的特性尚未得到充分探索，这限制了其在我们多提示长视频生成任务中的应用。因此，本文首次对基于最先进的视频模型（即 CogVideoX）的 3D 全注意力图中的区域注意力模式进行了全面分析。

如下图 2 所示，由于视觉和文本提示的连接，每个注意力矩阵可以分解为四个不同的区域，分别对应不同的注意力操作：视频到视频的注意力、文本到文本的注意力、文本到视频的注意力和视频到文本的注意力。以下是每个区域的详细介绍，灵感来源于先前的 UNet-like 结构中的独立注意力。

文本到视频和视频到文本的注意力

之前的 UNet-like 架构通过交叉注意力实现视频与文本的对齐。在 MM-DiT 中，文本到视频和视频到文本的注意力发挥了类似的作用。计算了所有层和注意力头的平均注意力值，然后通过选择特定的列或行来提取文本到视频和视频到文本区域的注意力值，这些列或行对应文本到视频和视频到文本区域中的token索引。接着，这些注意力值被重塑为格式，从而能够可视化每一帧的语义激活图。如上图 2 所示，这些可视化结果显示了token级语义定位的显著精度，能够有效捕捉文本描述和视觉元素之间的细粒度关系。这一发现为精确的语义控制和定位提供了强有力的基础，为借用已有的图像/视频编辑技术以增强多提示视频生成的一致性和质量提供了支持。

文本到文本和视频到视频的注意力

文本到文本和视频到视频的区域注意力在某种程度上是新的，与相应的 UNet 结构不同。如下图 3 所示，本文的分析揭示了这两个组件中相似的模式。在文本到文本的注意力组件（图 3(a)(b)，其中 (a) 表示较短提示的注意力模式，(b) 表示较长提示的模式）中，观察到一个显著的对角线模式，表明每个文本token主要关注其邻近的token。

值得注意的是，随着文本序列长度的增加，存在明显的垂直线，这些垂直线向后移动，表明所有token对文本序列末尾的特殊token保持显著关注。对于视频到视频的注意力组件，由于 MM-DiT 扁平化了空间和时间token以进行 3D 注意力计算，在单帧级别的分析揭示了空间注意力中的明显对角线模式（上图 3(c)）。更重要的是，当检查来自不同帧中相同空间位置的token构建的注意力图时，还观察到显著的对角线模式（图 3(d)）。这一特征与最近的基于 UNet 的视频模型中的空间注意力和时间注意力（如 VideoCrafter 和 Lavie）中的发现相似，符合 [25] 中的报告结果。

由于之前的工作仅训练扩散模型的特定部分以进行更高级的控制和生成，本文的发现为从 MM-DiT 角度看待这些方法提供了有力的证据。这些在 MM-DiT 架构中出现的一致对角线模式表明了帧间强相关性，这对于维持空间-时间一致性和保留视频序列中的运动忠实度至关重要。

随时间一致的视频生成

MM-DiT 中的注意力机制与 UNet-like 视频扩散模型中的行为类似。因此，提出了基于mask引导的 KV 共享策略，用于多提示视频生成任务中的一致视频生成。

如下图 4 所示, 为了在提示和提示之间生成一致的视频, 利用 MM-DiT 中第和第个提示的中间注意力来分别生成特定一致对象的注意力mask。这是通过对 3D 全注意力中的所有文本到视频/视频到文本部分进行平均，并使用给定的特定主题token来实现的。通过这些mask，接着执行mask引导的注意力融合, 生成提示的新注意力特征。受到 MasaCtrl 的启发, 直接利用提示中的键和值来引导提示的生成, 从而实现随时间变化的一致外观生成。

形式上, 在第步, 分别使用固定的 MM-DiT 骨干网络与提示和下一个提示进行前向传递,生成中间区域的交叉注意力图。然后, 对所有头和层中的注意力图进行平均, 得到相同空间分辨率和时间帧的平均值。得到的交叉注意力图记作 , 其中是文本token的数量。接下来, 获得与前景对象相关的token的平均交叉注意力图。分别将和作为从和中提取的前景对象masks。利用这些masks, 可以限制在中的对象仅查询来自中对象区域的信息：

其中, 是最终的注意力输出。然后, 将当前步骤的特征图替换为 , 以便进一步计算。

用于过渡的隐混合策略

尽管之前的方法保证了片段之间的语义一致性，但要实现不同语义片段之间的平滑过渡，仍需要精心设计。因此，提出了一种隐混合策略，旨在确保不同语义片段之间的时间一致性，灵感来源于最近在单提示长视频生成中的工作 [33, 46]。

如下图 5 所示，本文的方法在相邻语义视频片段（视频和视频）之间引入重叠区域。对于重叠区域中的每个帧位置，应用一个位置相关的权重函数，该函数遵循对称分布——越靠近各自片段的帧得到更高的权重，而边界处的帧则得到较低的权重。这个加权方案确保了不同语义上下文之间的平滑过渡。

形式上, 给定由提示和分别生成的两个相邻视频片段和 , 提出如下隐混合策略。设表示片段之间的重叠帧数。对于重叠区域中的帧位置 , 计算其混合隐特征 :

其中, 和分别是来自和的隐特征, 是一个位置相关的三角形权重函数, 定义为:

本文的方法的关键优势在于，它不需要额外的训练，同时能够有效地处理不同语义上下文之间的过渡。在每个去噪步骤中，首先独立处理每个片段，然后逐步使用位置相关的权重在重叠区域中融合隐特征。这一策略在保持时间一致性的同时，平滑地过渡于不同的语义上下文之间，使其特别适用于多提示视频生成任务。

实验

基于 CogVideoX-2B 实现了 DiTCtrl，CogVideoX-2B 是一种基于 MM-DiT 的先进开源文本到视频扩散模型。在实验中，生成了多提示条件的视频，每个视频片段由 49 帧组成，分辨率为 480×720。此外，还使用了 ChatGPT 来生成不同类型的多个过渡。在实验中将隐采样帧数和重叠大小设置为 13 和 6。实验在单个 NVIDIA A100 GPU 上进行。

质量结果

与当前最先进的多提示视频生成方法[33, 38, 40] 和领先的商业解决方案进行了全面的定性比较。为了确保公平比较，还在 CogVideoX 主干上实现了 FreeNoise，作为增强的基准。

如下图 6 所示，本文提出的方法在三个关键方面展示了优越的性能：文本到视频对齐、时间一致性和运动质量。尽管 Kling 在高质量视频生成方面展现了令人印象深刻的能力，但它仅限于同时的多语义混合，而不是顺序的语义过渡，这突出了在多提示视频生成任务中实现时间演变内容的重要性。

本文的比较分析揭示了现有方法的 distinct 特征和局限性。Gen-L-Video 存在严重的时间抖动和偶尔的物体消失，影响了整体视频质量。Video-Infinity 和 FreeNoise 都在场景级语义变化方面取得了成功，但缺乏物理上合理的运动——例如，在上图 6 中，车辆看似在运动，但空间位置固定，这是它们基于 UNet 的能力的限制。相比之下，FreeNoise+DiT 利用了 DiT 架构的能力实现了更真实的物体运动，但在语义过渡上存在困难，导致片段之间出现明显的中断。DiTCtrl 方法保留了预训练 DiT 模型的固有能力，同时解决了这些局限性，能够平滑地实现语义过渡，并在整个视频序列中保持运动一致性。