专栏名称: DataFunTalk

专注于大数据、人工智能领域的知识分享平台。

超越Sora的Movie Gen是怎样炼成的？Meta92页论文揭秘

DataFunTalk · 公众号 · · 2024-10-15 13:00

正文

点击蓝字

关注我们

‍

｜引言

Meta公司在10月4日发布了Movie Gen最新研究成果，包含一系列能生成1080p视频和同步音频的基础模型，支持多种宽高比。这一成果标志着多模态LLM产业级应用方面取得了重要进展。与Sora不同，Meta通过一篇92页的论文公开了Movie Gen的架构和训练细节，包括架构、训练方法、数据管理、评估、并行训练和推理优化等。

｜ 论文看点 ‍‍

Movie Gen模型系列：基础模型能生成与文本提示相符的视频和音频，实现视频个性化、编辑和音频生成
视频生成：30B参数的变换器模型生成长达16秒视频。个性化视频包含特定人物和丰富细节
精确视频编辑：模型能根据文本提示执行添加、删除或替换元素的编辑任务
音频生成：13B参数模型生成长达45秒高质量音频，与视频同步
技术革新：论文介绍了架构、训练、数据、评估和推理优化等方面的技术创新
A/B人类评估：人类评估者更偏好Movie Gen模型结果，显示其在媒体生成任务上的先进性

‍

｜ 内容概览 ‍‍

1.引言与概述

人类想象力的描述及其转化为AI系统的挑战
重点关注媒体生成：图像、视频、音频
Movie Gen系列模型的主要功能，包括视频生成、视频个性化、视频编辑和音频生成。

2.图像和视频联合生成

Movie Gen Video模型：时序自动编码器（TAE）、Flow Matching训练目标、模型并行和训练效率
预训练和微调过程
推理和评估

3.视频个性化

个性化Movie Gen Video模型
预训练策略：身份注入、长视频生成、提高自然性
监督微调和评估：微调数据集、高质量微调、评估标准和结果

4.指令引导的精确视频编辑

Movie Gen Edit模型：多任务目标训练、合成多帧编辑数据、反向翻译进行视频编辑
训练和评估

5.联合音效和音乐生成

Movie Gen Audio模型：Flow Matching和Diffusion Transformer、音频表示和调节模块
预训练和微调
推理和评估

6.相关工作

文本到图像生成
文本到视频生成
图像和视频个性化
有引导的视频编辑
音频生成
Movie Gen系列模型与现有技术的关系

7.结论

Movie Gen系列模型的主要贡献和创新点
未来研究的方向和挑战

我们已将论文全文翻译中文，以方便大家阅读学习，感兴趣的朋友可以在公众号后台回复【 1013 】获取中文全文下载链接 ‍

Movie Gen：一系列的媒体基础模型

本文中我们介绍了Movie Gen ：一系列的媒体基础模型，可以生成具有不同宽高比的、带有同步音频的、高质量1080p视频。我们还介绍了一系列附加的功能，比如基于精确指令进行视频编辑、基于用户的图像生成个性化视频。我们的模型在多项任务上达到了SOTA：文本生成视频、视频个性化定制、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数的Transformer，用73K视频token的最大上下文长度训练，对应于16FPS的16秒视频。我们展示了多种技术创新和简化，包括架构、隐空间、训练目标和策略、数据管理、评估方案、并行化技术和推理优化等方面，这些优化使我们能够扩展预训练数据、模型大小和训练计算量，并训练大规模媒体生成模型。我们希望本文能够帮助学术界加速媒体生成模型的进步和创新。

官方博客： https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/
视频demo： https://go.fb.me/MovieGenResearchVideos

1 引言

想象一只蓝色鸸鹋游过海洋。人拥有惊人的想象力，可以非常详细地想象这样一个虚构的场景。人类在发挥想象力时需要合成和预测世界的方方面面。简单地想象一个场景就需要合成很多不同的概念，比如同时预测关于运动、场景、物理、几何、音频等的真实属性。然而为人工智能系统配备这种生成、合成和预测能力是一项具有广泛应用的科学挑战。而大语言模型（LLMs）（Dubey等人，2024；Touvron等人，2023；Brown等人，2020；Team Gemini，2023）旨在通过文本输出空间学习这种能力，在本文中，我们重点关注媒体——图像、视频、音频-作为输出空间。我们介绍Movie Gen：一系列基础模型。Movie Gen模型可以本地生成高保真图像、视频和音频，同时还拥有编辑和个性化视频的能力，如图1所示。

我们发现，通过scaling训练数据、计算和模型参数，就可以让Flow Matching（Lipman等人，2023）训练的简单Transformer的模型（Vaswani等人，2017）产生高质量的视频或音频生成能力。我们的模型是在互联网规模的图像、视频和音频数据上预训练的。我们最大的基础文本到视频生成模型Movie Gen Video由30B参数组成，而我们最大的基础视频到音频生成模型Movie Gen Audio由13B参数组成。我们进一步对MOVIE GEN VIDEO进行后训练，以获得个性化Movie Gen Video，该视频可以生成以人的面部为条件的个性化视频。最后，我们展示了一种新颖的后训练程序，以产生可以精确编辑视频的Movie Gen Edit。结合使用，这些模型可用于创建长达16秒（16 FPS）和48kHz音频的逼真个性化高清视频，并能够编辑真实或生成的视频。

Movie Gen系列的模型在视频和音频生成的多媒体生成任务上取得了SOTA。在文本到视频生成方面，我们在整体视频质量方面优于现有技术，包括Runway Gen3（RunwayML，2024）、LumaLabs（LumaLabs，2024）、OpenAI Sora（OpenAI，2024）等商用系统，如表6所示。此外，通过个性化Movie Gen Video和Movie Gen Edit，我们分别实现了视频个性化生成和精确视频编辑的新功能，而这两种功能都是当前商用系统所缺少的。在这两项任务上，我们也优于所有先前的工作（表15和表17）。最后，Movie Gen Audio的性能优于现有技术，包括用于音效生成（表29）、音乐生成（表30）和音频扩展的PikaLabs（Pika Labs）和ElevenLabs（ElevenLabs）等商用系统。

图1：Movie Gen的不同功能示例。Movie Gen系列模型根据文本提示生成视频，支持生成与提供的参考图像中的角色一致的视频，支持根据用户提供的指令进行精确的视频编辑，并生成具有同步音频的视频。此图中的视频位于https://go.fb.me/MovieGen-Figure1.

为了支持未来的基准测试，我们公开发布多个基准测试——Movie Gen Video Bench（第3.5.2节）、Movie Gen Edit Bench（第5.2.1节）、Movie Gen Audio Bench（第6.3.2节）。我们还提供了关于模型架构、训练、推理和实验设置的详细信息，我们希望这将加速媒体生成模型的研究。

2 概述 ‍‍‍‍‍‍

Movie Gen 系列模型生成具有同步音频、个性化视频，并支持视频编辑，如图1所示。

我们使用两种基础模型来实现这些广泛的功能：

Movie Gen Video。用于文本到图像和文本到视频联合生成的30B参数基础模型，可根据文本提示生成时长长达16秒的高质量高清视频。该模型自然生成多种宽高比、可变分辨率和持续时序的高质量图像和视频。该模型在100M量级视频和1B量级图像上联合预训练，并通过“观看”视频来了解视觉世界。我们发现，预训练的模型可以推理物体运动、主体-物体交互、几何、相机运动和物理，并学习各种概念的合理运动。为了改进视频生成，我们对一小组精选的高质量视频和文本字幕执行监督微调(SFT)。我们在第3节中介绍了模型架构和训练细节
Movie Gen Audio。用于视频和文本到音频生成的13B参数基础模型，可以生成与视频输入同步的48kHz高质量电影音效和音乐，并遵循输入文本提示。该模型自然地处理可变长度的音频生成，并且可以通过音频扩展技术为长达几分钟的视频生成长格式的连贯音频。我们在（1）M小时的音频上预训练模型，并观察到它不仅学习物理关联，还学习视觉和音频世界之间的心理关联。该模型可以生成与视觉场景匹配的叙事音环境声音，即使在源看不见的情况下，也可以生成与视觉动作同步的叙事音声音效果。此外，它可以生成支持情绪并与视觉场景动作保持一致的非叙事音音乐，并专业地混合音效和背景音乐。我们进一步对一小组策划的更高质量（文本、音频）和（视频、文本、音频）数据执行SFT，这提高了整体音频质量，并以电影风格为目标。第6节概述了模型和训练方案

我们通过后训练过程将视频个性化和视频编辑功能添加到我们的Movie Gen Video基础模型：

个性化使得视频生成模型能够以文本以及人的图像为条件来生成以所选人为特征的视频。生成的个性化视频在遵循文本提示的同时保持人的身份。我们使用包含人类的视频子集，并自动构建（图像、文本）输入和视频输出对来训练模型。我们在第4节概述了个性化的训练后策略。
精确编辑允许用户使用文本指令对真实和生成的视频执行精确和富有想象力的编辑，而无需费力。由于大规模的监督视频编辑数据更难获得，我们展示了一种在没有监督视频编辑数据的情况下训练这种视频编辑模型的新方法（第5节）。我们展示了模型的视频编辑能力：https：//go.fb.me/MovieGen-Figure24.

图2：Movie Gen Video的训练策略。我们首先为文本到图像任务预训练我们的模型，然后以越来越高的空间分辨率进行文本到图像和文本到视频的联合预训练（第3节）。我们在高美学和运动质量的视频上微调模型，以改进我们的视频生成。我们还添加了额外的功能，如个性化（第4节）和视频到视频编辑（第5节）。

3 图像和视频联合生成

我们为文本到图像和文本到视频任务训练了一个单一的联合基础模型，Movie Gen Video。给定文本提示作为输入，我们的基础模型生成由多个RGB帧组成的视频作为输出。我们将图像视为单帧视频，使我们能够使用相同的模型来生成图像和视频。与视频数据相比，成对的图像-文本数据集更容易扩展到不同的概念和风格（Ho等人，2022a；Girdhar等人，2024），因此图像和视频的联合建模带来更好的泛化能力。我们的训练方案如图2所示。为了提高训练效率，我们分多个阶段进行训练。我们首先仅在低分辨率256像素图像上预训练我们的模型，然后在低分辨率图像和视频上进行联合预训练，以及高分辨率联合训练。我们在高质量视频上微调模型，以改善生成效果。此外，我们还通过后期训练添加了个性化和编辑等功能。

为了提高训练和推理效率，我们在时序压缩的隐空间中执行生成。为此，我们训练单个时序自动编码器模型（TAE）将RGB图像和视频映射到时序压缩的隐空间，反之亦然。我们使用预训练的文本编码器对用户提供的文本提示进行编码，以获得文本提示嵌入，其用作我们模型的条件。我们使用Flow Matching训练目标（Lipman等人，2023）来训练我们的生成模型。将采样噪声和所有提供的条件作为输入，我们的生成模型产生隐变量输出。这通过TAE解码器以将其映射回像素空间并产生输出图像或视频。我们在图3中说明了联合图像和视频生成pipeline的概述。

在为基础模型中的所有组件进行设计选择时，我们注重简单性，包括训练目标、主干架构和使用TAE的时序压缩。这些选择，包括将LLaMa3（Dubey等人，2024）主干架构用于联合图像-视频生成模型，允许我们自信地Scale模型大小，同时允许有效的训练。我们最大的30B参数模型可以直接生成不同宽高比（例如，1：1、9:16、16：9）、多种长度（4-16秒）、分辨率为768x768像素的视频（根据宽高比适当缩放）。我们的空间上采样器可以进一步提高空间分辨率，以产生全高清1080p分辨率的视频。

接下来，我们描述基础MOVIE GEN VIDEO的模型架构、预训练和微调过程。

图3：联合图像和视频生成pipeline概述。我们在时序压缩的隐空间上训练我们的生成模型，该空间是通过时序自动编码器模型(TAE)学习的。用户提供的文本提示使用预训练的文本编码器进行编码，并用作条件。我们的生成模型将采样的高斯噪声和所有提供的调节作为输入，并生成输出潜势，使用TAE解码器将其解码为输出图像或视频。

3.1图像和视频基础模型

我们描述了MOVIE GEN VIDEO的关键组件——时序自动编码器（TAE）、图像和视频生成的训练目标、模型架构以及我们在工作中使用的模型Scale技术。

3.1.1 时序自编码器

为了提高效率，我们使用时序自编码器（TAE）将RGB像素空间视频和图像编码到学习的时序压缩隐空间中，并学习在该隐空间中生成视频。我们的TAE基于变分自编码器（Kingma，2013）并压缩输入维度为

的像素空间视频V到维度为

的连续值隐变量X，其中

，

在我们的实现中，我们在每个时序维度上压缩输入8，即

这种压缩减少输入Transformer主干的序列长度，能够以本地速度生成高清的长视频。这种选择也允许我们放弃先前工作中常用的帧插值模型（Girdhar等人，2024；辛格等人，2023；Ho等人，2022a），从而简化了我们的模型。

TAE结构 .我们采用了（Rombach等人，2022）中用于图像自编码器的架构，并通过添加时序参数来“膨胀”它：每次2D空间卷积后的1D时序卷积和每次空间注意力后的1D时序注意力。所有时序卷积都使用对称复制填充。通过步长为2的步长卷积来执行时序下采样，并且通过最近邻插值然后卷积来执行上采样。经由跨步卷积的下采样意味着能够通过丢弃杂散输出帧来编码任何长度的视频(特别地包括图像，其被视为单帧视频)，如图4所示。与（Dai et al.,2023）类似，我们发现增加潜在空间X中的信道数量可以提高重建和生成性能。我们在这项工作中使用C=16。我们使用预训练的方法初始化TAE中的空间参数，然后添加时序参数以上文所述方式。在膨胀之后，我们以1批图像、3批视频的比率在图像和视频上联合训练TAE

图4：使用TAE的可变长度视频编码和解码

训练目标的改进。 我们发现（Rombach等人，2022）中使用的标准训练目标导致解码像素空间视频中的“斑点”伪像，如图5所示。在进一步的检查中，我们发现该模型在某些空间位置产生了具有高范数的潜在代码（“潜在点”），当解码时，这些代码导致像素空间中的“点”。我们假设这是一种快捷学习的形式，其中模型学习将关键的全局信息存储在这些高范数的潜在点中。类似的现象在（Darcet等人，2023年）中也有记录，作者发现视觉变形金刚可以产生高范数的潜在token，在（Karras等人，2024年）中也有记录，他们发现消除全局算子如群范数解决了这个问题

使用时序平铺进行高效推理。 由于内存要求，对高分辨率长视频进行编码和解码是不可行的，比如1024×1024像素256帧。为了便于对大视频进行推理，我们将输入视频和潜变量沿着时间维度划分为块，对每个块进行编码和/或解码，并在输出端将结果拼接在一起。平铺时，可以包括图块之间的一些重叠，当将图块拼接回一起时，相邻图块之间具有附加的加权混合。重叠和混合可以应用于编码器和解码器，并且具有以额外计算为代价去除边界伪影的效果。图6显示了平铺推理的基本流程

图5：斑点伪影和相应的潜在点。（a）来自在左上角显示斑点伪影的生成视频的帧，（b）TAE特征通道的可视化，其中对应的潜在点是可见的。

图6：使用TAE的平铺推理。输入视频在时序维度上被分割成均匀的图块，具有可选的重叠。每个图块都通过模型前向传递发送。如果使用重叠，则在重建期间执行线性加权混合。

3.1.2视频和图像生成的训练目标

我们使用Flow Matching（Lipman等人，2023）框架来训练我们的联合图像和视频生成模型。Flow Matching通过迭代地改变来自先前分布(例如，高斯分布)的样本来从目标数据分布生成样本。在训练时，给定隐空间X1中的视频样本，我们采样时序步长和“噪声”样本，并使用它们来构造训练样本，训练模型以预测速度

它教它向视频样本X1的方向“移动”样本Xt

推理。 在推理时，我们首先取样然后使用常微分方程（ODE）求解器，使用模型的估计值来计算。在实践中，在精确的ODE求解器配置中存在多种设计选择，例如，一阶或更高阶求解器、步长、容差等。影响估计的运行时间和精度 .我们使用简单的一阶Euler ODE求解器，该求解器具有唯一的离散集根据我们的模型定制的时间步骤，如第3.4.2节所述。

信噪比。 时间步长控制信噪比（SNR），以及我们用于构造的简单插值方案在以下情况下确保零SNR

这确保了在训练期间，模型接收纯高斯噪声样本，并被训练以预测它们的速度。因此，在推断时，当模型接收纯高斯噪声时

它可以做出合理的预测。

3.1.3联合图像和视频生成骨干网络架构

我们通过密切遵循LLaMa3（Dubey等人，2024）架构中使用的Transformer模块来构建我们的Transformer主干。我们使用RMSNorm（张和森里奇，2019）和SwiGLU（Shazeer，2020），就像以前的工作一样。对于使用Flow Matching生成视频的用例，我们对LLaMa3 Transformer块进行了三项更改：

为了结合基于文本提示嵌入P的文本条件，我们在每个Transformer的自注意模块和前馈网络(FFN)之间添加了一个交叉注意模块块。我们利用多个不同的文本编码器，因为它们具有互补的优势，如下一节所述，并简单地将它们的嵌入连接到单个序列中来构建P。
我们添加自适应层范数块以将时序步长t合并到Transformer中，如先前工作中所使用的（Peebles和Xie，2023）。
我们使用完全双向注意，而不是语言建模中使用的因果注意。

我们有意保持主干的设计简单，类似于LLM，特别是LLaMa3。这种设计选择允许我们使用与LLM中使用的类似技术来Scale模型大小和训练，如第3.1.6节所述。根据经验，我们发现我们的架构设计的性能与之前工作中使用的专用块相当或更好（Balaji等人，2022；Esser等人，2024），同时在一系列超参数（如模型大小、学习率和batch size）上训练更稳定。我们列出了我们的关键超参数

表1：Movie Gen Video 30B参数基础模型的架构超参数。我们的模型架构是一个Transformer（Vaswani等人，2017），我们密切关注LLaMa3（Dubey等人，2024）设计空间。我们的模型在Transformer本身包含30B个参数，不包括文本嵌入模型、TAE等

3.1.4 富文本嵌入和可视文本生成

我们使用预训练的文本编码器将输入文本提示P转换为文本嵌入P，我们将其用作视频生成主干的条件输入。我们使用UL2（Tay等人，2022）、ByT5（Xue等人，2022）和长提示元剪辑的组合作为文本编码器，为主干提供语义级和字符级的文本理解。长提示元剪辑模型是通过在较长的文本标题上微调元剪辑文本编码器（Xu等人，2023）以将输入文本标记的长度从77增加到256而获得的。在添加单独的线性投影和LayerNorm层以将它们投影到相同的6144维空间并归一化嵌入之后，我们将来自三个文本编码器的文本嵌入连接起来。

图7：空间上采样器概述。我们的上采样器是一种有条件的视频到视频模型，可以将768 像素的视频上采样到全高清1080p。首先，输入的768像素视频被双线性上采样到HD，然后被编码到图像编码器的隐空间。视频潜伏与噪声级联，并使用经训练的变换器去噪。最后，将去噪的潜像传递到图像解码器以产生上采样视频

控制FPS。 我们使用FPS调节来通过将每个训练视频的采样FPS值预先附加到输入文本提示（例如，“FPS-16”）来控制生成视频的长度。在预训练期间，我们以至少16 FPS的原始FPS对视频剪辑进行采样。在微调中，我们以两个固定的FPS值16和24对剪辑进行采样。

3.1.5 空间上采样

我们使用单独的空间上采样器模型将768 像素视频转换为全高清(1080p)分辨率。这降低了高分辨率生成的总体计算成本，因为基本文本到视频模型处理更少的token。

如图7所示，我们将空间上采样公式化为视频到视频生成任务，其生成以较低分辨率输入视频为条件的HD输出视频。首先使用像素空间中的双线性插值将低分辨率视频空间上采样到期望的输出分辨率。接下来，使用VAE将视频转换到隐空间。我们对上采样器使用逐帧VAE来提高像素清晰度。最后，隐空间模型以相应的低分辨率视频的隐变量为条件生成HD视频的隐变量。随后使用VAE解码器将所得HD视频潜像逐帧解码到像素空间中。

实施细节。 我们的空间上采样器模型架构是文本到视频转换器的较小变体（7B参数），从以1024 像素分辨率训练的文本到图像模型初始化，允许更好地利用高分辨率图像数据。空间上采样器被训练以预测视频的潜势，然后使用VAE的解码器逐帧解码。我们在400K高清视频上以24 FPS的速度在14帧的剪辑上训练我们的空间上采样器。我们应用二阶退化（Wang等人，2021）过程来模拟输入中的复杂退化，并训练模型以产生高清输出视频。在推理时序，我们将在已经用TAE解码的视频上使用我们的空间上采样器。为了最小化这种隐变量的训练测试差异，我们用TAE产生的伪像随机替换二阶退化。由于强输入条件，即低分辨率视频，我们观察到该模型仅需20个推理步骤就能产生良好的输出。这种简单的架构可以用于各种倍数的超分辨率；然而，我们为我们的情况训练了一个2空间超分辨率模型。类似于TAE平铺（第3.1.1节），我们使用滑动窗口方法对视频进行上采样，窗口大小为14，重叠为4个潜在帧。

提升多重扩散的时序一致性。 内存限制禁止我们在较长的视频持续时序上训练空间上采样器。因此，在推理过程中，我们以滑动窗口方式对视频进行上采样，导致边界处明显的不一致。为了防止这种情况，我们利用多重扩散（Bar-Tal等人，2023），这是一种免训练优化，可确保由一组公共约束约束的不同生成过程之间的一致性。具体来说，我们在每个去噪步骤中使用来自重叠帧的潜在时序的加权平均值，促进了连续窗口之间的信息交换，以增强输出中的时序一致性。

3.1.6模型Scale和训练效率

我们描述了允许我们扩展和有效训练Movie Gen Video 30B参数基础模型的关键细节。在下一节中，我们将（1）概述硬件和基础设施细节，（2）将我们的训练设置与最先进的法学硕士进行比较和对比（Touvron等人，2023；Dubey等人，2024），以及（3）讨论用于Movie Gen Video的模型并行方法。

硬件基础设施。 我们使用多达6144个H100 GPU训练媒体生成模型，每个GPU以700W TDP和80GB HBM3运行，使用Meta的Grand Teton AI服务器平台（Baumgartner和Bowman，2022）。在一台服务器中，有八个GPU通过NVSwitches统一连接。跨服务器GPU通过400Gbps RoCE RDMA网卡连接。训练作业使用MAST（Choudhury等人，2024）（Meta的全球规模训练调度程序）进行调度。

与大型语言模型的比较。 LLM使用结构化因果注意力掩码来加强象征性的随机性，不像Movie Gen Video中使用的完全双向注意力。与没有因果掩蔽的注意力相比，这种因果掩蔽可以被用来提供大约2倍的加速，同时还降低了峰值内存需求（Dao，2024）。

其次，最先进的LLM，如LLaMa3（Dubey等人，2024）使用分组查询注意力（GQA）而不是多头注意力（MHA），这减少了K-、V-头的数量，从而减少了键和值投影的总维度。这导致FLOPs和张量内存大小的减少，同时还提高了内存带宽利用率。此外，自回归LLM通过使用GQA获得了额外的推理时序优势，这是由于它们的K，V缓存大小的减小。部分由于Movie Gen Video的非自回归设计，我们不探索这种架构设计选择，并将其留给未来的工作。

与当前LLMA3等LLM类似，我们的训练分为不同上下文长度的阶段，其中我们的上下文长度根据空间分辨率（256 像素或768 像素）而变化。对于768 像素训练，这导致上下文长度为73K个token（768x768 分辨率256帧，以8x8x8参数通过TAE压缩，以2x2x1分块）。但与在较短上下文长度训练占据绝大多数训练预算的LLM不同，我们大部分的FLOPs都花在了长上下文768 像素训练上（见表3）。由于自注意力的平方性质（这是Transformer块的核心），Scale到非常大的上下文长度需要巨大的计算（FLOPs）。这使得优化我们的训练设置以进行长时序训练变得更加重要。

图8：Movie Gen Video Transformer主干和应用的模型并行。左图：我们展示了用于分片30B模型的Transformer主干和颜色编码的不同模型并行化（在第3.1.6节中描述）。右图：Movie Gen Video训练最昂贵阶段的多个关键步骤中的特征维度，处理768 像素视频输入，每个样本序列长度为73K个token

模型并行。 我们的大模型大小和极长的上下文长度需要使用多个并行来进行有效的训练。我们采用3D并行来支持跨三个维度的模型级Scale：参数数量、输入token和数据集大小，同时还允许水平扩展到更多GPU。我们利用完全分片数据并行的组合（Rajbhandari等人，2020；任等，2021；赵等，2023）、张量并行（Shoeybi等，2019；纳拉亚南等，2021）、序列并行（李等，2021；Korthikanti等，2023）、上下文并行（刘等，2023a；英伟达，2024）。

在下文中，我们描述了不同的并行性以及如何在Transformer主干的不同部分中使用它们（如图8所示）。

张量并行(TP)沿着列或行对线性层的权重进行分片，并且导致参与分片的每个GPU执行TP大小较少的工作(FLOP)并且为列并行分片生成TP大小较少的激活并且为行并行分片消耗TP大小较少的激活。执行这样的分片的代价是在前向(行并行)和后向(列并行)通过两者中增加全部减少通信开销。
序列并行（SP）建立在TP之上，以还允许在序列维度上对被复制的层的输入进行分片，并且其中每个序列元素可以被独立地处理。这样的层(例如，LayerNorm)将否则执行重复计算并跨TP组生成相同的(并且因此复制的)激活。
上下文并行(CP)支持序列相关的序列维度上的部分分片softmax-注意力操作。CP利用了这样的见解，即对于任何给定的（源（上下文）、目标（查询））序列对，softmax-attention仅依赖于上下文而不是查询的序列。因此，在输入源和目标序列相同的自我注意的情况下，CP允许在前向传递中仅对K和V投影（而不是Q、K和V）进行全聚集，在后向传递中对它们相关联的梯度进行减少散射。

此外，由于Q和K，V投影之间的行为分离，CP的性能不仅在上下文长度上是可变的，而且在上下文维度的大小上也是可变的。其结果是Movie Gen Video和最先进的LLM（例如LLaMa3）之间CP的Scale性能和开销特性的差异，后者使用GQA，因此生成更小的要传达的K，V张量（例如，比LLaMa3 70B小8x以上）。

完全分片数据并行（FSDP）跨所有数据并行GPU对模型、优化器和梯度进行分片，在每个训练步骤中同步收集和分散参数和梯度。

‍

重叠的通信和计算。 虽然并行技术可以通过跨GPU划分FLOP和内存需求来训练大序列Transformer模型，但它们的直接实现可能会引入开销和效率。我们构建了一个分析框架来模拟计算和通信时序，使我们能够识别需要GPU间通信的重复激活，从而设计一个高度优化的模型并行解决方案。我们新的模型并行化自定义实现，用PyTorch编写并编译到CUDAGraphs中，实现了强大的激活内存扩展，并最大限度地减少了暴露的通信时序。我们在附录A.2中提供了有关优化训练设置的更多详细信息。

3.2预训练

3.2.1预训练数据

我们的预训练数据集由100M量级的视频文本对和1B量级图像文本对组成。我们遵循类似于（Dai等人，2023）图像-文本数据监管的预训练数据监管策略，并在本节中重点关注视频数据监管。

我们最初的数据池由4秒到2分钟长的视频组成，涵盖了人类、自然、动物和物体等不同领域的概念。我们的数据管理pipeline产生了我们最终的剪辑提示对预训练集，其中每个剪辑长4s-16s，具有单镜头相机和非平凡的运动。我们的数据监管pipeline如图9所示。它包括三个过滤阶段：1）视觉过滤，2）运动过滤，和3）内容过滤，以及一个字幕阶段。过滤后的剪辑用平均包含100个单词的详细生成字幕进行注释。我们在下面详细描述每个阶段。

视觉过滤。 我们应用6个过滤器来删除视觉质量低的视频。我们删除小于最小宽度或高度720像素的视

图9：Movie Gen Video预训练数据监管pipeline。我们通过多个阶段过滤大量视频，以生成一组带有相关提示的高质量训练剪辑

频。我们根据宽高比进行过滤，以实现60%横向和40%纵向视频的混合。我们更喜欢横向视频而不是纵向视频，因为它们持续时序更长，美观性更好，运动稳定。我们使用视频OCR模型来删除文本过多的视频。我们还使用FFmpeg（FFmpeg开发者）执行场景边界检测，从这些视频中提取4到16秒长的剪辑。然后，我们训练简单的视觉模型，以获得预测信号，用于基于帧级视觉美感、视觉质量、大边界和视觉效果进行过滤。跟随Panda-70M（陈等人，2024），我们删除了开头与视频开头一致的剪辑的前几秒钟，因为视频的开头通常包含不稳定的摄像机移动或过渡效果。

运动滤波。 我们遵循之前的工作（Girdhar等人，2024）来自动过滤掉低运动视频。首先，我们使用内部静态视频检测模型来删除没有运动的视频。接下来，我们根据视频的VMAF运动分数和运动向量（FFmpeg开发者）来识别具有“合理”运动的视频。为了删除相机频繁抖动的视频，我们使用了PySceneDetect（PySceneDetect Developers）库中的镜头边界检测。最后，我们删除了带有特殊运动效果的视频，例如，幻灯片视频。

内容过滤。 为了确保预训练集中的多样性，我们使用复制检测嵌入（Pizzi等人，2022）空间中的相似性来删除预训练集中的感知重复剪辑。我们还通过重新采样来创建我们的训练集来减少主导概念的流行。我们对来自视频-文本联合嵌入模型的语义嵌入进行聚类，以识别细粒度的概念聚类。接下来，我们根据聚类大小的平方根倒数合并重复聚类和来自每个合并聚类的样本剪辑（Mahajan等人，2018）。

字幕。 我们通过使用LLaMa3-Video（Dubey等人，2024）模型为视频剪辑创建准确而详细的文本提示。我们为视频字幕任务微调模型的8B和70B变体，并使用这些模型为视频剪辑的整个训练集加字幕。我们的训练集由70%的8B字幕和30%的70B字幕组成。为了实现电影摄像机运动控制，我们训练了一个摄像机运动分类器，该分类器预测16类摄像机运动中的一种，例如缩小、向左平移等。（更多细节见附录B.2）。我们将高置信度摄像机运动预测前置到先前生成的文本字幕。在推断中，这允许用户指定用于视频生成的显式摄像机控制。

多阶段数据管理。 我们管理了3个预训练数据子集，具有逐渐严格的视觉、运动和内容阈值，以满足预训练不同阶段的需求。有关这些视频的监管阈值的详细信息，请参见附录B.1。

表2：T2V预训练数据集的持续时序桶。我们根据训练视频的持续时序和FPS将其分为五个桶。每个桶中的视频具有相同数量的潜在帧，这允许轻松批量处理训练数据。最后三行的桶基于视频剪辑的原始持续时序。前两行的桶是基于分别从10.67-12秒和16秒的视频中采样的中间剪辑创建的。

表3：T2I/V预训练的渐进策略和数据集。注意：（1）除了列出的视频数据集之外，用于T2I训练的相同图像数据集也用于T2I/V训练中，与视频数据的比率为1:10，以及（2）差异源的视频数据集以相对于数据集体积的比率进行采样。(3)全局bs=(bs/GPU*#GPU)/(TP*CP)

可变时长和大小的分桶。 为了适应不同的视频长度和宽高比，我们根据宽高比和长度对训练数据进行桶化。每个桶中的视频导致完全相同的隐变量维度，这允许轻松批量处理训练数据。我们对图像和视频数据集使用五个宽高比桶。因此，我们的模型可以生成不同宽高比的图像和视频，例如，横向为1024 576，纵向为576 102 4。我们定义了五个持续时序桶（4s-16s），并根据视频长度调整潜在帧的数量（见表2）。如第3.1.4节所述，我们通过向文本标题添加FPS token来引入FPS控制，允许我们以不同的帧速率（16-32 FPS）对视频进行采样。

3.2.2训练

我们描述了30B参数模型的训练细节。为了提高训练效率和模型可扩展性，我们采用了多阶段训练程序，类似于（Girdhar等人，2024）。该程序包括三个主要步骤：

对文本到图像（T2I）任务进行初始训练，随后对文本到图像和文本到视频（T2V）任务进行联合训练；
从低分辨率256像素数据到高分辨率768像素数据的渐进分辨率缩放；
使用改进的数据集和优化的训练方案进行持续训练，同时应对计算和时序限制。

表3总结了训练方案。我们维护一组未参与训练的视频的验证集，并在整个训练过程中监控验证损失。我们观察到，我们模型的验证损失与由人类评估判断的视觉质量有很好的相关性。

文本生成图像预热训练。 联合训练T2I/V模型比单独训练T2I模型明显更慢且更需要内存，这主要是由于潜在token长度明显更长（例如，32）。此外，我们观察到，从头开始直接训练T2I/V模型比从T2I模型初始化它们导致更慢的收敛速度。

T2I/V联合训练。 在T2I预热训练之后，我们针对文本到图像和文本到视频联合训练模型。为了实现联合训练，我们将空间位置嵌入（PE）层加倍以适应各种宽高比，添加新的时序PE层以支持多达32个潜在帧，并通过2个扩展从T2I模型初始化空间PE层。我们首先使用256 像素分辨率的图像和视频进行T2I/V联合训练。对于768 像素阶段，我们将空间PE层扩展3。表3总结了训练方案。

256 像素 T2I/V。我们使用1536个样本的大批量和更大的学习速率6e 5，从而实现稳定的训练。经过123k次迭代后，我们将GPU的数量增加了一倍，产生了2 更大的全球批量和验证损失的显著下降。我们在395M（4+纪元）视频样本后，在185k迭代时停止训练。
768 像素 T2I/V。我们观察到验证损失在前10k次迭代中迅速减少，然后波动，见图15。我们在19.6 k次迭代中将学习率降低了一半，这进一步减少损失。我们继续训练模型，并在验证损失稳定时降低学习率

3.3微调

与之前的工作一样（戴等人，2023；Girdhar等人，2024），我们通过在选定视频的小微调集上微调预训练模型来提高生成视频的运动和美学质量。微调集视频和字幕是手动策划的，因此我们将这个阶段称为监督微调。在这个阶段，我们训练多个模型，并通过模型平均方法将它们组合起来形成最终模型。虽然我们的模型可以生成高质量的图像，但我们发现专门针对图像的后训练会显著提高质量。我们在第3.7节中描述了特定于图像的后训练配方，接下来描述特定于视频的后训练策略。

微调视频数据。 我们的目标是收集一套微调的高质量视频，具有良好的运动、真实性、美感、广泛的概念和高质量的字幕。为了找到这样的视频，我们从大量视频开始，并应用自动和手动过滤步骤（从（Dai等人，2023）的策展配方中获得动力）。有四个按顺序运行的关键阶段，每个阶段对前一阶段的输出进行操作：（1）建立一组候选视频。在这里，我们使用自动过滤器，对美学、运动和场景变化设置严格的阈值。此外，我们使用帧上的对象检测模型（Zhou等人，2022）来删除具有小主题的视频。这一阶段产生了几百万个视频，但概念分布不平衡。（2）平衡一组视频中的概念。该阶段的目标是获得足够小的概念平衡视频子集，使得每个视频都可以在以下步骤中手动过滤。我们使用第3.2.1节中定义的人类动词和表达分类法来执行文本k-NN方法，从候选视频池中检索每个概念的视频。我们为每个概念手动挑选一些视觉上吸引人的种子视频，并执行视频k-NN以获得概念平衡的视频子集。对于k-NN，我们使用来自视频-文本联合嵌入模型的视频和文本嵌入。(3)手动识别电影视频。高质量微调数据的许多方面不能由具有高精度和高召回率的自动滤波器可靠地捕获。在这个阶段，我们依赖于手动过滤。在这里，我们确保剩余的视频有角度（自然阳光或工作室）照明、生动（但不过度饱和）的颜色、没有杂乱、不平凡的运动、没有相机抖动、没有编辑过的效果或覆盖文本。在此阶段，注释者还将视频剪辑到所需的持续时序，通过选择视频的最佳、最引人注目的剪辑来进行训练。（4）手动给视频加字幕。具体来说，人类注释者通过修复不正确的细节并确保包含某些关键的视频细节来细化LLaMa3视频生成的字幕。这些包括相机控制、人类表情、主体和背景信息、详细的运动描述和照明信息。在这个阶段，人类注释了六种额外的摄像机运动和位置类型（见附录B.2）。我们的视频微调数据设置为持续时序在10.6秒到16秒之间。实际上，50%的视频长度为16秒，而其余50%的视频长度在10.6秒到16秒之间。

有监督微调策略。 在视频监督微调（SFT）中，我们使用与预训练阶段相同的模型架构，以预训练检查点作为初始化对模型进行微调。与使用大规模数据、大批量和训练资源的预训练不同，我们使用相对较小的批量和64个节点（512个H100 GPU）来训练模型，并使用余弦学习速率调度器（Loshchilov和Hutter，2017）。与预训练阶段类似，对于16秒的视频，我们以16 FPS进行训练，对于10.6秒到16秒之间的视频，我们以24 FPS进行训练。因此，我们的模型被训练成最好地支持10秒和16秒视频的生成。

模型平均。 我们的实验表明，选择不同的微调数据集、超参数以及预训练检查点会显著影响模型行为的关键方面，包括运动、一致性和相机控制。为了利用这些模型的不同优势，我们采用了模型平均方法。与LLaMa3（Dubey等人，2024）类似，我们对从SFT实验中获得的模型进行平均，这些实验使用各种版本的微调数据、超参数和预训练检查点。

3.4推理

在本节中，我们将描述用于从Movie Gen Video采样的不同超参数和设置。为了与以前的工作进行比较，我们使用7.5的无文本分类器指导量表，并且我们使用第3.4.2节中描述的线性二次采样器，具有50个步骤（模拟250个线性步骤）。我们还在输入文本提示上使用推理提示重写，如下所述

图10：线性二次t-时序表。（a）使用1000步线性t-时序表，在推理步骤中Transformer块输入与输出的平均变化。（b）50步线性和线性二次t计划。由于模型块输入/输出的最大变化发生在早期时序步长，我们的调度器复制前25个低时序步长，并用25个二次步长桥接剩余的时序步长。

3.4.1 推理提示重写

如3.2.1节所述，我们用高质量的视频/图像-文本对训练模型，这些训练字幕的特点是细节密集，段落结构一致。然而，推理阶段提示的书写风格和长度差异很大。例如，大多数用户通常键入少于10个单词，这比训练字幕的平均长度短。为了弥合训练字幕和推理提示之间的分布差距，我们利用LLaMa3（Dubey等人，2024）将原始输入提示转换为更详细的提示。推理提示重写模型的关键细节是：

我们采用标准化的信息架构来重新表述提示，确保视觉构成的一致性。
我们通过用更容易理解和直接的术语替换复杂的词汇来改进重写的提示，从而提高它们的清晰度和可理解性。
我们观察到，对运动细节的过度精细描述会导致在生成的视频中引入伪影，这突出了在描述丰富性和视觉保真度之间取得平衡的重要性。

高效推理重写模型。 为了提高推理重写模型的计算效率，我们为此开发了一种师生蒸馏方法。最初，我们基于LLaMa3 70B模型构建了一个提示重写教师模型，使用了详细的提示指令和来自基础模型训练集的上下文学习示例。然后，我们收集了人在回路(HITL)微调数据。这是通过使用LLaMa3 70B提示重写模型作为教师对大型提示池进行推理，并通过遵循质量指南的人工评估选择高质量的重写对来实现的。最后，我们在HITL提示重写对上微调了一个8B LLaMa3模型，以获得最终的提示重写模型，以减少整个系统的延迟。

3.4.2 提高推理效率

为了有效地对视频进行采样，我们使用Euler采样器，该采样器具有为我们的模型量身定制的独特t-时序表。根据经验，我们发现Euler优于高阶解算器，如中点（Atkinson，1991）或自适应解算器，如Dopri5（Dormand和Prince，1980）。我们观察到，由于额外的时序维度，减少视频生成的推理步骤的数量比图像生成更具挑战性，即与静态图像相比，生成的运动的质量和即时对准对推理步骤的数量更敏感。

我们发现，通过实现线性二次t-schedule，我们可以仅用50个步骤来接近N步视频生成过程的质量。这种方法遵循N步线性时序表的前25个步骤，然后用25个二次放置的步骤来近似剩余的N-25个步骤。例如，用1000个线性步长生成的视频可以通过25个线性步长和25个二次步长精确地模拟，其中线性步长与1000步线性调度的前25个线性步骤相同。线性二次策略的前提是观察到第一推理步骤在设置视频的场景和运动中至关重要。如图10所示，我们绘制了每个推理步骤中每个变压器块的输入和输出之间的平均变化。在基于扩散的快速视频模型PAB（赵等人，2024）中观察到类似的行为，其中与图10中的L形曲线相比，注意力块的平均每步差异遵循U形模式。由于大多数变化发生在第一个求解器步骤中，因此接管N步进度表的第一个线性步骤，然后是更大的步骤，就足以近似整个N步结果。后一步的二次间隔至关重要，因为它强调了流量匹配序列中早期阶段的重要性。在实践中，我们使用50步线性二次规划来模拟N=250个线性步骤以获得最佳结果。

3.5 评估

在本节中，我们将解释如何评估Movie Gen Video和其他模型的文本生成视频质量。我们的目标是建立清晰有效的评估指标，识别模型的弱点并提供可靠的反馈。我们在第3.5.1节中解释了不同的文本到视频评估维度及其设计动机。我们在第3.5.2节中介绍了我们的新基准Movie Gen Video Bench。在整个工作中，我们使用人工评估来评估跨各种评估维度生成视频的质量。在评估每个维度时，我们进行成对的A/B测试，其中专家评估员并排评估两个视频。评估者被指示根据被测量的维度选择获胜者，或者在没有明确获胜者的情况下宣布平局。我们在第3.5.3节中讨论了使用人工评估和现有自动化指标的动机和可靠性。

3.5.1 评估维度

与文本到图像任务相比，评估文本到视频的生成提出了独特的挑战，这主要是由于时序维度的复杂性增加。为了使视频被认为是高质量的，它必须忠实于提供的文本提示，在没有明显缺陷的情况下保持跨帧的高视觉质量，并以照片般逼真的风格在视觉上具有吸引力。为了评估这些因素，我们从三个主维度评估生成视频的质量：（1）文本对齐，（2）视觉质量，以及（3）真实性和美感。每个维度及其细粒度子维度在下面详细描述并总结在表4中。

文本对齐性。 该维度测量生成的视频与提供的提示的对齐程度。输入提示可以包括对象外观、运动、背景、相机运动、照明和风格、视觉文本等的广泛描述。请人类评估人员密切关注这些具体方面并选择与提示更接近的视频。为了提供更细致入微的反馈，评估人员还被要求指定他们基于两个正交子维度的推理：主题匹配：这测量主题外观、背景、照明和风格的对齐；和运动匹配：这测量运动相关描述的对齐。

视觉质量 。与文本到图像生成中的视觉质量相比，生成视频中的大部分感知质量源于运动质量——视频特定的维度。因此，在文本到视频的视觉质量评估中，我们专注于测量模型在输出视频中生成一致、自然和足够的运动量的能力。为了抓住这些关键方面，我们提出了以下四个子维度，我们在下面概述。

帧一致性：此指标评估生成内容的时序一致性。违反帧一致性可以表现为类似变形的伪像、模糊或扭曲的对象或突然出现或消失的内容。我们认为帧一致性是衡量模型理解对象框架和运动关系的能力的关键指标，因为当模型未能准确表示对象或其环境之间的交互时，经常会出现不一致或失真。此外，帧一致性反映了模型处理挑战性任务的能力，例如需要快速移动内容的提示，例如在运动场景中，保持一致的外观尤其困难；或者关于遮挡的推理，例如，对象在被遮挡之后重新出现。
运动完整性：这衡量输出视频是否包含足够的运动。当提示涉及分布外或不寻常的对象（例如，怪物、鬼魂）或执行不寻常活动的真实世界对象（例如，飞行的人、弹钢琴的Panda）时，可能会发生缺乏运动完整性。由于此类场景的训练数据有限，模型可能难以生成足够量的运动量，从而导致静态视频或只有摄像机移动的视频。运动完整性评估视频中的运动幅度。此维度上的赢表示运动量更大，即使它包括失真、快速运动或看起来不自然。

‍

表4：文本到视频生成的评估维度。我们评估跨3个轴的视频生成，每个轴由多个细粒度的子轴组成。文本对齐评估输入文本提示和视频之间的“对齐”。视觉质量、真实性和美感独立于输入文本提示评估生成视频的质量。

运动自然性：该指标评估模型生成自然和真实运动的能力，展示对现实世界物理的坚实理解。它涵盖了自然肢体运动、面部表情和遵守物理规律等方面。看起来不自然或不可思议的动作将受到处罚。
总体质量：对于正在比较的给定一对视频，上述三个指标可能不会产生相同的获胜者。为了解决这个问题，我们引入了整体质量子维度，其中要求人类评估者在给定前三个子维度的情况下选择具有更好“整体”质量的获胜视频。这是一个整体度量，要求人类注释者使用他们的感知并平衡先前的信号，以捕获生成的视频的整体质量。

真实与美学。 真实感和美感评估模型生成具有美观内容、照明、颜色、风格等的逼真视频的能力。我们要求人类评估者沿着两个子维度进行评估：

真实性：这衡量被比较的视频中哪些与真实视频最相似。对于训练集分布之外的幻想提示（例如，描绘幻想生物或超现实场景），我们将真实定义为模仿电影中遵循现实艺术风格的剪辑。我们还要求评估者选择他们选择背后的原因，即“受试者外观更真实”或“运动更真实”。
美学：这衡量哪些生成的视频具有更有趣和引人注目的内容、灯光、颜色和相机效果。同样，我们要求评估者提供细节，证明他们的选择“内容更吸引人/有趣”和“灯光/颜色/风格更令人愉悦”。

3.5.2评估基准

为了彻底评估视频生成，我们建议并希望发布一个基准，Movie Gen Video Bench，它由1000个提示组成，涵盖了上面总结的所有不同测试方面。我们的基准比之前工作中使用的提示集大3个以上（Singer等人，2023；Girdhar等人，2024）进行评估。我们特别包括捕捉以下感兴趣概念的提示：1）人类活动（肢体和嘴部运动、情绪等），2）动物，3）自然和风景，4）物理（流体动力学、重力、加速度、碰撞、爆炸等。），5）不寻常的主体和不寻常的活动。为了测试不同运动水平下的生成质量，我们还用高/中/低运动标记每个提示。我们展示了表5中使用的评估提示的示例，并在图11中展示了评估提示在各个概念中的分布。

表5：来自我们提出的Movie Gen Video Bench基准的样本评估提示。我们对涵盖广泛概念的提示进行了采样，具有不同的运动级别。

图11 ：Movie Gen Video Bench中评估提示的可视化摘要。（a）由于每个提示可能包含多个测试概念，我们为每个提示分配一个或多个概念标签。因此，分布中的总计数超过1000。（b）、（c）评估集中常见名词和动词的可视化。

我们在整个评估提示集上评估模型质量，并通过单个测试指标分解质量。涉及不寻常主题和不寻常运动的提示有助于测试模型泛化到分发外内容的能力。

3.5.3评估讨论

在这里，我们决定使用人工评估，而不是自动化指标。

视频生成中人工评估的必要性。 选择人工评估的动机源于评估视频生成的复杂性。对于文本对齐，评估运动随时序的对齐需要理解动作如何相对于提示展开和演变。当上下文是抽象或复杂时，人类特别擅长识别时序一致性和处理歧义，而自动化方法可能仅捕获静态帧级对应关系。

可靠性。 关于评估中可靠性的一个重要方面是由于生成模型的概率性质而在建模方面引入的随机性，以及由于注释方差而在人类评估方面引入的随机性。定义衡量生成的客观标准仍然具有挑战性，人类仍然会受到其他因素的影响，如个人偏见或偏好。我们描述了我们为减少评估方差和提高人类评估可靠性所做的努力。我们采取了四个关键步骤来最小化评估方差：（1）我们为人类评估者提供详细的评估指南和视频示例，缩小评估维度和子维度的定义，以最大限度地减少主观性。此外，受JUICE指标（Girdhar等人，2024）的启发，我们发现要求评估者指出他们选择的原因有助于减少注释差异并提高评估者之间的一致性。（2）我们在一大组提示上评估模型（例如，Movie Gen Video Bench为1000个，比（Singer等人，2023；Girdhar等人，2024年）大3个），涵盖了各种各样的概念。（3）我们使用多数投票系统，对于每个文本对齐和视觉质量问题，来自三个注释的多数投票，对于真实性和美学问题，来自六个注释的多数投票，因为这些问题更主观。（4）我们对人工注释进行彻底和频繁的审计，以解决边缘情况并纠正错误标记。

文本到视频评估的自动化指标。 文本到视频生成的先前工作依赖于用于评估视频质量的自动化度量。一些先前的工作利用判别模型来生成媒体评估维度，包括剪辑的文本保真度（Radford等人，2021）。这种自动化指标的一个关键限制是，它们本质上受到底层判别模型性能的限制（Rambhatla和Misra，2023）。使用判别模型评估文本到视频生成的一个关键挑战是缺乏有效和富有表现力的视频-文本判别模型。我们注意到，存在用于生成视频评估的其他有趣的自动化指标，例如基于运动结构的指标（李等人，2024），我们在这里没有探索其使用。

实现与Movie Gen Video的公平比较。 为了使未来的工作能够公平和容易地与Movie Gen Video进行比较，我们希望公开发布我们为Movie Gen Video Bench提示集生成的非精选视频。

3.6结果

在本节中，我们将描述Movie Gen Video的实验和结果。我们首先在第3.6.1节中包括与先前文本到视频生成工作的比较。我们在第3.6.2节中消除了Movie Gen Video的关键设计决策。我们在第3.6.3节中纳入了TAE的关键结果和消融，在第3.6.5节中纳入了空间上采样器的评价。我们在第3.7节中包括了与先前文本到图像生成工作的比较

表6：Movie Gen Video与先前工作的对比。

3.6.1与先前工作的比较

我们将Movie Gen Video与先前在不同评估维度20上的文本到视频生成的工作进行比较如第3.5节所述。结果示于表6中。我们报告了我们模型的净胜出比例，它可以在[-100,100]的范围内。在整体质量方面，Movie Gen Video以超过

的净胜出比例大幅优于Runway Gen3（35.02%）和LumaLabs。我们生成内容的净胜出比例略高于OpenAI Sora(8.23%)（净胜出比例在1-

以内），与Kling1.5(3.87%)持平。我们注意到，这种大的运动完整性与较差的帧一致性相结合，显示了Kling1.5偶尔会产生带有失真的不自然的大运动的趋势。如第3.5.1节所示，运动完整性仅评估视频中运动的大小，而不考虑失真、快速运动或不自然。

在真实性和美观性方面，Movie Gen Video在这两个指标上都明显优于Runway Gen3、LumaLabs和Kling1.5，在真实性方面的净胜出比例分别为48.49%、61.83%和37.09%。与OpenAI Sora相比，Movie Gen Video在真实性方面明显获胜，净胜出比例超过2C，净胜出比例为11.62%，在美学方面略胜OpenAI Sora，净胜出比例在1-

内为6.45%。

这展示了Movie Gen Video生成逼真且视觉上引人注目的内容的能力。在文本保真度方面，Movie Gen Video优于OpenAI Sora、Runway Gen3、LumaLabs，与Kling1.5不相上下。

图12：从Movie Gen Video生成的视频。Movie Gen Video生成高质量、视觉上引人注目的视频，这些视频与复杂的文本提示对齐。此图中的视频位于https://go.fb.me/MovieGen-Figure12.

图13：Movie Gen Video与先前工作的定性比较。在这里，我们展示了为Movie Gen视频、Runway Gen3、LumaLabs和Kling1.5的同一提示生成的视频。与之前的工作不同，Movie Gen Video生成的视频质量高，运动自然逼真，并与文本提示对齐。此图中的视频位于https://go.fb.me/MovieGen-Figure13.

图14：Movie Gen Video和先前工作之间的定性比较。在这里，我们展示了Movie Gen Video和OpenAI Sora在相同提示下生成的两个视频。Movie Gen Video生成具有逼真运动的自然视频，即使是此处显示的训练集外分布提示。如这里所示，对于这样的提示，OpenAI Sora可能倾向于生成不太真实的视频（例如，第二行中的卡通袋鼠），这可能会损失文本提示中描述的运动细节（例如，底行中的非行走机器人）。图中的视频是在 https://go.fb.me/MovieGen-Figure14 .

从Movie Gen Video生成的几个视频如图12所示。Movie Gen Video能够为自然提示（见图12）和描述训练集分布之外的奇幻场景的分布外提示（见图1）生成高质量视频。生成的视频包含复杂的运动，描绘了视频持续时序内的详细内容，例如，消防员跑进然后跑出燃烧的森林，或者小狗四处找寻、找到它的主人并继续它的探索（参见图12）。

Movie Gen Video和先前工作之间的定性比较如图13和图14所示。如图所示，Movie Gen Video生成逼真的高质量视频，其运动看起来自然，与文本提示很好地对齐。Movie Gen Video生成的对象和身份在整个视频持续时序内保持一致，并遵守物理定律。不同的是，先前的工作可能很难生成同时具有高质量和良好文本对齐的视频。

验证损失和人工评估之间的相关性。 在图15中，我们显示了Movie Gen Video的验证损失作为预训练步骤的函数，并观察到它平滑地减小。我们在每几千次迭代后获取预训练的检查点，并在成对比较中评估它们。我们观察到验证损失与人类评估结果有很好的相关性，因为验证损失较低的后期检查点在评估中表现更好。这表明，Flow Matching验证损失可以作为模型开发过程中人类评估的有用代理。

微调的效果。 我们利用第3.3节中描述的监督微调来进一步提高视频生成质量。在表7中，我们比较了预训练模型和微调模型在24 FPS和10.6 s视频持续时序下的评估指标。我们发现微调导致视觉质量和文本对齐指标的显著改善。

图15：验证损失与人类评估相关。左图：我们绘制了768 像素阶段T2I/V预训练的验证损失。每当验证损失稳定时，我们就降低学习率。右图：我们观察到验证损失与相应检查点的人类评估结果有很好的相关性，特别是对于文本对齐和整体质量。

表7：微调和预训练模型的比较。我们在微调模型和预训练模型之间进行A/B比较，其中分数是微调模型的胜出比例减去预训练模型的胜出比例，这表明微调比预训练模型有显著改善。视频以24 FPS的速度进行评估，视频时长为10.6秒。

表8：Movie Gen Video中的关键设计决策。每个表格都显示了采用设计决策与不采用设计决策的模型在整体质量（Q）和文本对齐（A）方面的净胜出比例。详见第3.6.2节。

3.6.2消融实验

在这里，我们消除了Movie Gen Video的关键设计决策。对于本节描述的所有消融，我们使用比主要结果更简单、更小的baseline训练和模型设置。我们通过对包含381个提示的Movie Gen Video Bench子集（称为Movie Gen Video Bench-Mini）的文本到视频人工评估来定量分析每个设计决策的影响，并报告文本结果

可靠性和整体质量（见第3.5节） 。对于每次消融，除了被测试的设计决策之外，模型的每个方面都保持不变，以便进行公平比较。接下来，我们描述每个消融结果之后的更简单的baseline设置。除非本文另有描述，否则消融实验的所有其他设置遵循我们的30B模型，包括文本编码器、Flow Matching、图像训练集等。

消融的baseline模型设置 。我们使用5B参数版本的Movie Gen Video的训练来制作4-8秒352x192分辨率的视频。我们使用第3.1.1节中描述的TAE，它在每个时序维度上进行8次压缩，以产生维度为16x24x44的隐变量。这个较小的Movie Gen Video模型在Transformer中有32层，具有3072嵌入维度和24个头。

表9：Movie Gen的LLaMa3架构和DiT之间的架构差异。对于架构消融，所有其他超参数保持相等。

消融的baseline训练设置。 我们使用两阶段训练pipeline：（1）文本到图像的预训练；（2）文本转图像和文本转视频联合训练。为了简单起见，我们使用了一个由2100万个视频组成的较小数据集，用LLaMa3-Video 8B字幕，这些视频具有恒定的横向宽高比用于视频训练。首先，我们在图像数据集上训练模型，学习率为0.0003，全局batch size为9216，在512个GPU上进行96K迭代。接下来，我们执行文本到图像和文本到视频的联合训练，迭代率为0.02：1，其中图像的全局batch size为4096，视频的全局batch size为256。我们使用5e-5的学习率，训练100K次迭代。

消融结果-训练目标。 我们将Flow Matching训练目标与扩散训练目标进行比较。接下来（Girdhar等人，2024），我们使用v-pred和零terminal-SNR 扩散公式进行训练，这对于视频生成是有效的。如表8a中的人类评估结果所示，在控制所有其他因素的同时，Flow Matching在总体质量和文本对齐方面导致更好的生成。根据经验，我们还发现这个结果也适用于一系列模型大小，因此使用Flow Matching来训练我们的模型。

消融结果-视频字幕的影响 。如3.2.1所述，我们的视频生成模型是使用来自真实视频的剪辑和LLaMa3-Video生成的视频剪辑字幕来训练的。为了评估视频字幕的重要性，我们将我们的LLaMa3-Video 8B视频字幕模型与同样基于LLaMa的基于图像的字幕方案进行了比较。这种基于图像的字幕模型对视频剪辑的第一帧、中间帧和最后一帧进行字幕，然后使用LLaMa将这三个基于图像的字幕重写为单个视频字幕。我们将这个模型称为LLaMa3-FramesRewrite。我们首先通过基于A/B测试的人工评估来比较两种字幕方案的质量。人类评分者被要求在同一剪辑的两个给定字幕之间进行选择。LLaMa3-视频生成的字幕在67%的情况下是首选，而LLaMa3-帧重写字幕在15%的情况下是首选。我们从视觉上观察到，视频字幕模型能够准确地描述关于视频中的运动的更细粒度的细节。这些细粒度细节为训练视频生成模型提供了更强的监督信号，将整体提示对齐显著提高了10.8%（表8），其中大部分增加来自运动对齐（+10.7%），特别是在需要在输出视频中要求高度运动的提示上（+16.1%）。

消融结果-模型架构。 如表8c所示，我们发现我们基于LLaMa3的架构在质量（18.6%）和文本对齐（12.6%）方面都显著优于Diffusion Transformer。这一重要结果表明，LLaMa3架构比用于媒体生成的常用DiT具有优势。我们使用Movie Gen的目标是Scale到大模型尺寸，据我们所知，我们在文献中没有找到将Diffusion TransformerScale到非常大比例的详细示例。这一结果表明，我们可以自信地从常用的Diffusion Transformer过渡到LLM中更常用的架构，如LLaMa3，其Scale性能已被很好地检验（Touvron等人，2023；Dubey等人，2024）。

3.6.3 TAE结果

我们在这里介绍了时序自编码器（TAE）的重要设计决策的结果和消融。为了评估，我们报告了从训练集中分离的视频剪辑的重建峰值信噪比（PSNR）、结构相似性（SSIM）（Wang等人，2004）和Fréchet起始距离（FID）（Heusel等人，2017），时长为2秒、4秒、6秒和8秒，每个有200个示例。我们还在图像训练集的验证分割上测量相同的度量。对于视频重建评估，度量在视频帧上平均。

定性结果。 我们在图16中显示了来自我们的TAE的样本重建，其中有来自原始视频的帧以及在TAE编码器和解码器之后的重建。我们观察到TAE可以重建视频帧，同时保留视觉细节。对于图像和视频帧中的高频空间细节以及视频中的快速运动，TAE重建质量降低。当视频中同时存在高频空间细节和大运动时，这可能导致细节损失，如图16中的示例所示，其中精细细节在重建中被平滑掉。

定量指标。 表10将我们的TAE与不执行任何时序压缩的baseline逐帧自编码器进行比较。我们的baseline还产生了8通道隐空间，这是先前工作中用于逐帧编码的自编码器的标准（Blattmann等人，2023a；Girdhar等人，2024年）。在视频数据上，我们观察到TAE实现了与逐帧编码器竞争的性能，同时实现了高8倍的时序压缩。在图像上，TAE优于帧模型，这种改进可以归因于隐变量的通道数增加（8→16）（Dai等，2023）

图16：真实（左）和TAE重建（右）视频。TAE在三个时序维度中的每一个上将视频压缩8倍。我们观察到，来自TAE的重建保持了原始视频中存在的视觉细节。

表10：逐帧自编码器和我们的TAE模型之间的TAE重建度量比较。我们观察到，TAE在视频重建方面实现了与逐帧自编码器相当的性能，同时实现了8€更高的压缩

3.6.4 TAE消融

我们现在为训练我们的TAE模型的设计选择执行一系列消融实验。

消融的baseline设置。 为简单起见，我们使用具有较小4压缩比的TAE模型，该模型产生8通道隐空间。

2.5D与3D注意力和卷积 。我们比较了在TAE中使用2.5 D，即2D空间注意力/卷积，然后是1D时序注意力/卷积与使用3D时序注意力/卷积。在表11中，我们观察到3D时序注意力导致稍微更好的重建度量。然而，我们发现，与2.5 D模型相比，这种改进不足以证明与全3D模型相关的更大内存和计算成本是合理的。因此，我们使用2.5 D进行TAE。

表11：比较2.5 D与3D卷积和注意力的TAE模型。我们观察到，虽然3D模型的性能略好于2.5 D模型，但两个模型之间的性能差距很小

离群损失的影响 。我们从第3.1.1节中消除了添加异常值惩罚损失（OPL）的影响。如图5所示，该损失的添加从生成和重建的视频中去除伪影，并改善重建性能。我们首先在没有OPL的情况下训练一个baseline模型50K次迭代。然后，我们用OPL微调该模型10K次迭代，并将其与没有OPL微调20K次迭代的baseline进行比较。表12中总结的结果表明，OPL微调改善了图像和视频的重建。

表12：OPL对时序自编码器重建的影响。我们评估了OPL微调对重建质量的影响，并观察到OPL改善了图像和视频指标。

图17：空间上采样器的定性可视化：上采样之前\之后200 像素\400 像素作物的视觉比较。空间上采样器改善了输出中的高频细节。

3.6.5 空间上采样器结果

这里，我们包括3.1.5节中描述的空间上采样器的一些结果。上采样过程的视觉比较如图17所示，其显示了之前和之后的200 像素和400 像素裁剪上采样。结果表明，上采样器有效地锐化和增强了视觉细节，产生了更精细和详细的输出。

3.7 文本到图像生成

Movie Gen Model在视频和图像上联合训练，因此能够生成视频和图像。为了进一步验证该模型的图像生成能力，我们继续用图像自编码器对其进行训练，并将其性能与先前在图像生成方面的工作进行比较。以下部分提供了详细的实验设置和评估结果。

3.7.1方法

对于文本到图像模型，我们的目标是生成逼真的图像。我们利用Movie Gen Model作为初始化，并用图像自编码器替换TAE。然后，我们在文本到图像生成任务上训练模型，使其能够根据文本描述生成图像。最终分辨率为1024像素。对于后期训练，我们按照（Dai等人，2023）中概述的方法，策划了由内部艺术家创作的总共（1000）张图像进行质量调整。我们将模型微调为6k步，学习率为0.00001，batch size为64。我们使用了具有2000个预热步骤的恒定学习速率优化器。

3.7.2 结果

为了测量我们的文本到图像生成结果的质量，我们使用人类评估者来评估以下维度：（a）文本保真度，和（b）视觉质量。

我们与当代最好的文本到图像模型进行比较，包括Flux.1（黑森林实验室，2024年）、OpenAI Dall-E 3（OpenAI，2024年）、Midjourney V6.1（Midjourney，2024年）和Ideogram V2（Ideogram，2024年）然而，这些都是黑盒商业解决方案，这让公平的比较成为一个挑战。类似于文本到视频评估，我们从先前工作方法的基准提示中获得非精心挑选生成的图像，并在相同的提示中使用来自Movie Gen的非精心挑选的图像与它们进行比较。为了确保所有模型和评估维度之间的一致比较，我们利用ELO评级系统根据从原始人类评估结果转换而来的战斗记录建立排名。对于A/B比较评估，两个模型之间给定提示上的“赢/平/输”直接解释为一个战斗记录。这种方法允许我们结合所有评估维度上的评级，以生成整体结果。图18总结了比较结果，其中我们看到，与基准测试时可用的所有最新最先进的文本到图像方法相比，我们的模型获得了最高的ELO评级。在图19中，我们展示了我们生成生成内容的一些定性结果

图18 ：文本到图像方法的ELO评级比较。我们将我们的图像生成模型与最先进的文本到图像模型进行比较，并观察到它与最近的方法具有竞争力。

图19：来自电影Gen.Generation提示的示例T2I图像从左到右：（1）一个专注的作家，身边放着一支可靠的铅笔，坐在一个现代、极简主义的家庭办公室里，有一个大窗户，提供充足的自然光。（2）一个背着背包的徒步旅行者手里拿着橄榄球沿着一条小径走着，抬头看着头顶上一架翱翔的飞机，阳光明媚。（3）一个带有头带的发型启发了一位平面设计师，他使用平板电脑和手写笔创造了立体主义风格的充满活力的数字艺术。（4）一幅栩栩如生的风景画立在明亮、自然光充足的画室里，展示着它充满活力的色彩和纹理，而画家在工作

4 视频个性化

生成准确捕捉个人身份的个性化高质量视频是一个具有重要实际应用的重要研究领域。我们将个性化集成到视频生成中，产生本节详述的最先进的结果。我们在第4.1节中描述了我们的新模型架构，随后在第4.2.1节和第4.3节中描述了训练策略。我们在第4.4节中解释了个性化的评估标准，并在第4.5节中显示了定量结果。

4.1 模型

我们扩展了我们的30B Movie Gen Video模型，用于个性化文本到视频生成，PT2V，除了文本提示之外，还根据从输入参考图像中提取的身份信息来调节模型。图20示出了从T2VMovie Gen Video权重初始化的我们的PT2V模型的架构。我们在条件中使用视觉token连接，支持集成到统一框架中，从而允许放大模型大小。与（He等人，2024b）类似，我们使用可训练的长提示MetaCLIP视觉编码器（Xu等人，2023）从掩蔽的面部图像中提取身份特征，然后是投影层以将它们与文本特征维度对齐。我们的训练策略包括PT2V预训练阶段，然后是PT2V高质量微调

图20：个性化Movie Gen Video（PT2V）模型的架构和推理pipeline。我们根据Movie Gen Video的权重初始化模型，并添加额外的可学习参数，以实现对参考图像的调节。我们使用从长提示元剪辑初始化的可训练视觉编码器（Xu等人，2023）对参考图像进行编码，并将嵌入与文本提示嵌入连接起来。冷冻层用黄色表示，而可训练层用绿色表示

4.2 预训练

4.2.1预训练数据

对于PT2V训练集，我们只关注同一个人出现在所有帧中的视频。我们从第3.2.1节中描述的Movie Gen Video预训练数据集中管理该训练集。为了实现这一点，我们首先通过选择那些与人类相关概念的视频来过滤基于字幕的原始T2V视频。

配对数据。 对于每个选择的文本-视频对，我们从视频剪辑中均匀采样5帧，产生10M量级个配对训练样本。对于每一帧，我们裁剪人脸区域并分割人脸区域以防止该模型关注非关键区域，如背景。

交叉配对数据。 我们观察到，仅在上述配对数据上训练使模型容易学习复制粘贴快捷解决方案，即生成的视频总是遵循来自参考面部的表情或头部姿势。为了解决这个问题，我们收集训练对，其中参考图像来自同一个人的不同视频。

我们收集了真实和合成的交叉配对数据样本。（10）来自我们的预训练数据子集的K个真实交叉对，该子集包含同一场景的不同摄像机视图。对于合成的交叉配对数据，我们使用预训练的个性化图像生成模型（He等人，2024b）来创建合成参考图像。具体来说，我们将模型应用于配对数据中每个视频的第一帧，生成具有不同提示的图像，以改变表情、头部姿势和照明条件等。为了保持身份一致性，我们丢弃任何与参考图像相比ArcFace相似性得分低于0.7的生成图像。总的来说，该过程产生1M量级个合成交叉配对数据样本。

4.2.2预训练策略

PT2V预训练有三个目标：1）训练模型以参考图像为条件并保留身份，2）生成长的个性化视频，以及3）提高生成的人类表情和运动自然度。我们发现，在长视频上直接训练模型是不可行的，并且经常导致向个性化模型注入缓慢的身份，因为（1）训练速度几乎与潜在帧（token）数量的平方成正比，以及（2）长视频中弱的参考图像到视频的对应关系使任务更具挑战性。关于预训练策略的更多细节在图21中共享。

第一阶段：身份注入 。在PT2V预训练的第一阶段，我们通过在参考图像上调节模型并在短视频上训练来简化问题。具体来说，我们将TAE嵌入截断为8个潜在帧（对应于64个RGB视频帧），以使用配对的训练样本加速身份注入。我们冻结视觉编码器，只训练Transformer主干。我们观察到，模型可以在这个阶段快速学习跟随参考图像，如图21中的平均ArcFace相似性得分所测量的。

第二阶段：长视频生成 。为了恢复模型生成长视频的能力，我们继续用更多的潜在帧从阶段I训练PT2V模型，类似于表2中预训练的T2V模型。该阶段显著增强了长视频生成的一致性，特别是在背景和运动一致性方面。

图21：个性化Movie Gen Video（PT2V）预训练。左图：PT2V预训练食谱。我们的训练方案包括三个阶段，如第4.2.2节所述。右图：PT2V阶段I-III预训练的ArcFace相似性得分。随着第一阶段训练的进行，模型逐渐遵循身份。阶段-II保持阶段-I的同一性相似性。在第三阶段，由于交叉配对数据的训练，身份相似性往往会波动

第三阶段：提高自然性 。由于阶段I和阶段II中的模型已经在配对的图像-视频样本上进行了训练，因此它通常表现出强烈的复制-粘贴效应。例如，在生成的视频帧中，人倾向于直接凝视相机，从而导致看起来不自然的面部表情。我们通过在参考图像不是来自相应目标视频的交叉配对样本上进行训练来改善第三阶段的视频自然度和面部表情。我们利用真实的交叉配对数据和本阶段的合成交叉配对数据见第4.2.1节。我们还微调视觉编码器，从参考图像中提取更详细的身份特征。

4.3 有监督微调SFT

与T2V类似，我们通过利用高质量的美学数据，在高质量的微调阶段进一步提高视频美学。

4.3.1微调数据集

大规模预训练数据使模型能够根据参考面部图像生成跟随身份的视频。类似于Movie Gen Video的后训练（见第3.3节），我们收集一小组高质量的微调数据，目标是生成具有良好运动质量的高度美学视频。为了匹配Movie Gen Video的视觉质量和美学，我们从T2V finetuning集开始，收集了一个人的视频。随后，我们手动选择了具有不同人类动作的视频，确保数据集捕捉到了各种运动和行为。总的来说，我们最终的微调集包含1000级别高质量视频，其中包括以1：1比例使用的配对和真实交叉配对参考图像。

4.4 评估

我们从三个维度评估PT2V模型的质量：身份保存、视频质量和视频-文本对齐。后两个维度类似于第3.5节中的T2V A/B评估，其中视频质量可以进一步分解为整体质量、帧一致性、运动完整性和运动自然性。为了测量身份保持，给定身份参考图像和生成的视频剪辑，要求注释者对生成的角色的面部在最佳和最差帧中捕获参考人相似性的程度进行评级(身份得分)，以及面部在包含参考人的生成帧中在视觉上的一致性程度(面部一致性得分)。这两个分数是在绝对意义上测量的，对于身份问题，评级为“真正相似”、“有点相似”和“不相似”，对于面部一致性问题，评级为“真正一致”、“有点一致”和“不一致”。注释人员接受了训练，以遵循这些维度上标签的特定指南，并不断接受质量审核。

表13：个性化Movie Gen Video(PT2V)评估。我们将预训练和监督的高质量微调阶段后的模型与ID-Animator（He等人，2024a）在最佳相似帧、最差相似帧和跨帧的人脸一致性上的身份得分进行比较。

表14：个性化Movie Gen Video在身份保存度量方面的消融研究。我们观察到，可训练视觉编码器比冻结视觉编码器更好地保持身份。请注意，尽管交叉配对训练降低了身份相似性，但它会导致更多样化的头部姿势和更自然的表情

表15：关于视频质量和文本对齐的个性化Movie Gen Video(PT2V)评估。（a）我们的PT2V在监督微调后的净胜出比例（win%-loss%）与SOTA（ID-Animator（He等人，2024a））。PT2V在所有指标上都明显优于ID-Animator。（b）PT2V与没有视觉调节的电影代视频（T2V）。我们观察到，PT2V赢得了一致性，并在整体质量方面表现相当，这说明了统计显著性，但由于狭窄的概念分布（活动、对象等），在运动完整性和即时对齐方面有所损失。)的PT2V。

评估数据集。 我们选择了50名在训练中未见过的受试者作为评价数据中的参考面孔。这些参考面部图像包括正面和侧视图。对于每个图像，我们将其与5-7个独特的提示配对，并策划330个图像提示对进行评估。与T2V评估数据集类似，这些提示涵盖了不同的人类活动和面部表情。我们遵循与第3.4.1节相同的提示重写，以弥合我们的训练和推理标题之间的差距。

4.5 结果

在表13和表15a中，我们将监督微调后的个性化Movie Gen Video与ID-Animator进行了比较（He等人，2024a）。对于同一性得分，我们聚合最佳帧中的“真正相似”和“有点相似”得分，对于一致性得分，我们聚合“真正一致”和“有点一致”得分。显然，我们的方法在身份保持、视频质量和文本对齐的所有维度上都显著优于baseline。在表15b中，我们还将其与没有视觉调节的Movie Gen Video在视频质量和文本对齐方面进行了比较。

图22：个性化Movie Gen Video与先前工作的定性比较。在这里，我们显示了同一提示的两个生成的视频，展示了个性化电影生成的视频（第一行）和ID Animator（第二行）的输出进行比较。此图中的视频位于https://go.fb.me/MovieGen-Figure22.

图23：个性化Movie Gen Video。个性化Movie Gen Video生成遵循参考身份的高质量视频。此图中的视频位于 https://go.fb.me/MovieGen-Figure23 .

我们在图23中展示了从个性化Movie Gen Video生成的视频。前四个视频以相同的提示但不同的身份生成，后四个视频以相同的身份但不同的提示生成。生成的视频遵循具有不同运动和摄像机视图的身份。个性化电影Gen Video和ID-Animator（He等人，2024a）之间的定性比较如图22所示。个性化电影Gen Video在身份一致性和视频质量方面始终优于ID-Animator。

4.5.1 消融实验

我们消除了30B个性化文本到视频训练pipeline中关键设计选择的影响。

训练视觉条件反射的效果。 我们的模型使用32个可视编码器的嵌入人脸作为视觉嵌入来调节生成。我们研究在视频生成任务期间联合训练这种嵌入是否会提高性能。我们用固定的或可训练的视觉编码器模型重新训练我们模型的第三阶段，并在表14和表16中报告评估结果。我们观察到，使用固定视觉编码器显著损害了身份保持，约-16%，如表14所示。

交叉配对数据的影响。 我们的训练pipeline使用交叉配对数据，即，用于调节生成的面部图像来自与要生成的视频剪辑不同的视频剪辑。我们在表14中观察到，交叉配对训练导致身份度量的降低，然而，它在改善生成的视频中的面部表情和自然运动方面是至关重要的。表16中的人类注释揭示了交叉对训练模型将文本对齐提高了27.36%，将整体质量提高了13.68%，特别是在运动自然度方面提高了26.14%。

高质量微调的效果。 我们在表16中显示了最终高质量微调阶段对视频质量和文本对齐的所有维度的影响，在表13中显示了对身份保持的影响。同样，由于我们的高质量微调集包括交叉配对数据，因此身份略有下降，而视频质量和自然度显著提高。

表16：根据文本到视频评估度量的个性化Movie Gen Video的消融研究。每一列都显示了采用设计决策与不采用设计决策的模型的净胜出比例。使用可训练视觉编码器在质量和对准度量方面与冷冻的视觉编码器相当，同时显著提高了身份保存，如表14所示。结果还证实了交叉配对训练数据和监督微调对于视频自然性、更高质量和文本对齐的重要性。

5 指令引导的精确视频编辑

我们训练Movie Gen Edit的方法由两个主要假设指导。首先，与免训练方法相比，显式训练视频编辑模型提供了更大的潜力（Meng等人，2022；Geyer等人，2023）。此外，为了完全控制输入视频的所有方面，我们必须训练模型来处理整个视频输入，而不是输入视频的有限代理特征（例如，深度图）（Esser等人，2023；梁等，2023；严等，2023）。第二，与可以收集大量监督数据的任务(例如，文本到视频)不同，收集监督视频编辑数据远不太实际。因此，任何用于视频编辑的大规模训练都将受到训练和测试时序场景之间差异的影响。因此，第二个假设是，最大限度地减少训练测试差异对于释放模型的全部潜力至关重要。因此，我们的方法包括几个训练阶段，旨在逐渐减少这种训练-测试差异。

5.1 模型

鉴于监督视频编辑数据的稀缺，用于训练模型以执行视频编辑的方法容易出现训练-测试差异，从而导致次优质量。为了应对这一挑战，我们引入了一种多阶段方法，逐步最小化这些差异。我们在下面解释为支持视频编辑所做的架构修改，然后详细介绍我们方法的每个步骤。该过程在图24中可视化

图24：将文本到视频模型扩展到视频编辑。我们使用三个训练阶段向文本到视频模型添加视频编辑功能：单帧编辑（第5.1.2节）、多帧编辑（第5.1.3节）和通过反向翻译的视频编辑（第5.1.4节）。我们在https://go.fb.me/MovieGen-Figure24.提供了模型的视频编辑功能示例。

5.1.1 模型架构和初始化

为了支持视频编辑，我们介绍了对第3节中描述的架构的几种修改。首先，我们通过向补丁嵌入器添加额外的输入通道来实现输入视频调节。这允许我们沿着通道维度连接潜在视频输入和有噪声的输出潜在视频，并将连接的潜在视频提供给模型。此外，在Emu编辑之后（Sheynin等人，2024），我们加入了对特定编辑任务（例如，添加对象、更改背景等）调节模型的支持。）.具体来说，我们的模型为每个任务都有一个学习的任务嵌入向量。对于给定的任务，该模型对相应的任务嵌入应用线性变换，产生四个连接到文本编码器的隐藏表示的嵌入。我们还将第二次线性变换应用于任务嵌入，并将得到的向量添加到时序步长嵌入中。至关重要的是，为了完全保留模型的视频生成能力，我们将所有新添加的权重设置为零，并从预训练的文本到视频模型中初始化剩余的权重。

5.1.2 阶段I：单帧视频编辑

由于图像编辑和视频生成之间的序列长度的差异，图像编辑步骤比视频生成步骤需要明显更少的操作。因此，我们通过在图像编辑和视频生成批次之间交替来加速训练，而不是在每个批次中混合这两个任务。

有趣的是，在初步实验中我们发现，在图像编辑训练期间直接使用第一帧的位置嵌入会导致在视频编辑上测试模型时输出完全失真。我们通过使用随机采样的时序位置嵌入作为图像的位置嵌入来解决这个问题，我们使用该目标训练模型三万步。

5.1.3阶段II：多帧视频编辑

阶段I（5.1.2）的训练模型能够精确编辑图像并从文本生成高质量视频。然而，在执行视频编辑任务时，它会产生非常模糊的编辑视频。我们假设这些伪像是由于第一阶段训练和视频编辑之间的训练测试差异造成的。我们发现的最显著的差异是，阶段I训练期间，该模型不以多帧视频输入为条件。我们试图通过创建两个包含多帧视频输入和输出的互补数据集来减轻模糊伪影。我们在下面描述这些数据集中的每一个，并讨论在它们上训练后模型的性能。此外，我们在图25中可视化这两个任务。

动画帧编辑。 我们通过利用视频字幕对数据集来创建动画帧编辑数据集

该过程开始于用标题提示语言模型（例如，LLAMA3）。

图25：多帧编辑阶段。该模型在两个合成多帧编辑任务上进行训练：动画帧编辑和生成指令引导视频分割。

生成指令引导的视频分割。 动画帧编辑示例中缺少自然运动，这在动画帧编辑和视频编辑之间造成了明显的差异。为了解决这个问题，我们用生成指导的视频分割任务来补充动画帧编辑任务。其将EMU Edit（Sheynin et al.，2024）的分段任务从图像扩展到视频，在该任务中，模型需要通过基于给定指令以特定颜色标记特定对象来编辑视频。

训练。 我们在这些数据集上对第一阶段的模型进行微调，同时使用数千步的多任务训练生成文本到视频。在训练过程中，我们对动画帧编辑示例的采样频率是生成指令指导的视频分割和文本到视频生成的三倍。

我们观察到该阶段减轻了来自阶段I的模糊伪影；然而，在编辑的视频中新生成的元素表现出比期望的更少的运动，并且有时表现为过饱和。

5.1.4阶段III：通过反向翻译进行视频编辑

图26：反向翻译阶段。该模型被训练成对干净的输入视频进行去噪，同时对编辑的生成视频进行调节。

5.2评估

我们根据两个主要的视频编辑基准来评估我们模型的能力。第一个基准TGVE+（Singer等人，2024年）是最近提出的TGVE基准的扩展（Wu等人，2023c）。虽然该基准测试很全面，但它具有低分辨率、低FPS、短视频和方形视频的特点。这与最先进的视频生成模型和大多数媒体内容形成对比，后者通常具有更高的分辨率、更高FPS的更长视频以及各种宽高比。因此，为了能够正确评估具有更多相关视频输入的下一代视频编辑模型，我们引入了一个新的基准，称为Movie Gen Edit Bench。该基准测试由不同分辨率、FPS、长度和宽高比的视频组成。我们将我们的方法与几个baseline进行比较，并在多个轴上测量其有效性，包括对用户指令和输入视频的保真度，以及整体视觉质量。

5.2.1 视频编辑基准

TGVE+基准（Singer等人，2024；Wu等人，2023c）由76个视频组成，每个视频都伴随着用于以下任务的七个编辑指令：（i）局部对象修改，（ii）风格改变，（iii）背景改变，（iv）同时执行多个编辑任务，（v）对象移除，（vi）对象添加，和（vii）纹理修改。虽然该基准测试提供了对各种编辑任务的全面评估，但基准测试中的视频分辨率为480 480 像素，10 FPS时长为3.20秒，16 FPS时长为8.00秒。相比之下，真实用户视频被期望具有更高的分辨率、更高的FPS，并且可以包含各种宽高比。因此，尚不清楚针对TGVE+的评估是否会准确反映真实用户视频上的视频编辑性能。此外，当前的基础视频生成模型（OpenAI，2024；RunwayML，2023、2024）可以在高分辨率（例如，768p或1080p）、16或更高FPS、多种宽高比下运行，并且可以处理比来自TGVE的视频长得多的视频。

因此，为了能够使用更实用的视频来评估视频编辑，我们收集了一个新的基准，Movie Gen Edit Bench，旨在评估下一代视频编辑模型的视频编辑能力。对于每个类别，我们根据视频的运动分数对视频进行分类，并从每个类别的分类中统一采样视频。总体而言，基准验证集有64个视频，而测试集有128个视频。

5.2.2 视频编辑评估

我们的实验评估了视频编辑模型修改输入视频的能力，同时准确地遵循提供的指令并保留应该保持不变的结构和元素。我们使用人工评估和自动化指标来评估模型和baseline的视频编辑性能。对于自动评估，我们使用（Singer等人，2024）报告的主要自动指标，这些指标考虑了时序和空间一致性。具体来说，我们测量（i）ViCLIP文本-图像方向相似性（ViCLIPdir），其评估字幕变化和视频相应变化之间的对齐，以及（ii）ViCLIP输出相似性（ViCLIPout），其测量编辑视频和输出字幕之间的相似性。

对于人体评估，我们遵循TGVE+的标准评估方案（Singer等人，2024；吴等，2023c）。向人类注释者呈现输入视频、编辑指令和一对编辑过的视频。然后，我们要求评分者回答以下问题：（i）文本对齐：哪个编辑过的视频更准确地反映了给定的标题，（ii）结构：哪个编辑过的视频更好地保持了原始输入的结构完整性，以及（iii）质量：哪个编辑过的视频在视觉上更有吸引力，在美学上更优越。此外，我们用第四个问题扩展了该协议：（iv）总体：考虑质量、结构和文本对齐，哪个编辑过的视频更好。

5.3结果

在本节中，我们将我们的模型与领先的视频编辑baseline进行比较。然后，我们分析方法中主要设计和实现选择的重要性和影响（第5.3.2节）。

5.3.1 与先前工作的比较

我们相对于所有baseline的评价结果见表17。在本节中，我们报告了“胜出比例”，它可以在[0,100]的范围内，其中50表示两个模型之间的平局。在这两个基准上，人类评分者更喜欢Movie Gen Edit，而不是所有baseline。在TGVE+基准测试中，我们的模型在整体人类评估标准中比当前最先进的EVE更受青睐74%。在自动化指标方面，Movie Gen Edit在ViCLIPdir指标上呈现了最先进的结果。在ViCLIPout指标上，Movie Gen编辑性能与EVE相当。然而，与Movie Gen Edit不同，EVE可以访问用于计算ViCLIPout分数的视频输出字幕。

在Movie Gen Edit Bench上，我们的方法优于Runway Gen3 V2V和Runway Gen3 V2V风格设置。有趣的是，与Runway Gen3 V2V风格相比，人类评估指标突出了我们在维护输入视频结构方面的优势。与SDEdit相比，尽管ViCLIPout得分较低，但Movie Gen Edit在人类评估标准中受到人类评分者的青睐。与EVE类似，SDEdit在ViCLIPout自动度量中具有优势，因为它可以访问ViCLIPout使用的相同输出字幕。

5.3.2消融实验

在本节中，我们的目标是评估和量化我们的方法中主要设计和实现选择的重要性和影响。除非另有说明，否则在Movie Gen Edit Bench验证集（第5.2.1节）上使用第5.2.2节中描述的人体评估指标进行消融。

阶段I：多任务对比适配器 。我们使用与阶段I（第5.1.2节）中使用的相同的图像编辑数据在图像编辑上训练适配器10K次迭代，并将其与训练相同迭代次数的阶段I模型进行比较。

我们在Emu编辑基准（Sheynin等人，2024）上评估模型的图像编辑能力，并使用输入和输出图像之间的L1距离、输入和输出图像的DINO（Liu等人，2023c）特征之间的距离以及几个基于剪辑的图像编辑评估来测量性能

度量： 通过测量输入图像和编辑图像之间的剪辑空间距离来估计模型是否保留了输入图像中的元素。剪辑通过测量描述期望的编辑图像的标题和编辑图像本身之间的剪辑空间距离来估计模型是否遵循编辑指令。

估计应该更改的元素是否被正确编辑，同时确保打算保持不变的元素被保留。此外，我们进行人工评估，其中人工评分者评估文本对齐和图像保真度。在该评估期间，人类评分者看到原始图像和指令以及两个修改的图像，并被问到：(i)哪个编辑的图像更好地保留了来自输入图像的所需元素，以及(ii)哪个编辑的图像最好地遵循编辑指令。

表18：关于将图像编辑信息并入文本到视频模型的最佳方式的消融。我们比较了两种变体：(i)在冻结的文本到视频模型上训练ControlNet，以及(ii)在文本到视频和图像编辑上进行多任务学习。人工评估显示了第一阶段模型相对于ControlNet适配器的胜出比例

表19：与动画图像相比，使用动画帧训练第二阶段的贡献。人体评估显示了第二阶段模型（第5.1.3节）相对于其动画图像编辑对应物的胜出比例

表20：使用反向翻译而不是标准微调的训练的贡献。人工评估显示了MOVIE GEN EDIT与使用标准微调而不是反向翻译执行第三阶段（第5.1.4节）的胜出比例

表21：我们方法中每个阶段的贡献。在每一行中，我们显示了模型在某个阶段与其前一阶段对应物相比的胜出比例。

阶段II：动画帧/图像编辑. 如第5.1.3节所述，我们方法的第二阶段涉及在动画帧编辑数据集上对第一阶段（第5.1.2节）的模型进行微调。然而，一个更直接的替代方案是对第一阶段的图像编辑数据集进行动画处理，从而避免收集新的单帧编辑数据集。为了探索这一选择，我们使用与第5.1.3节中描述的方法类似的方法训练第一阶段的模型，但对第一阶段的图像编辑数据集而不是帧编辑数据集进行动画处理。如表19所示，人类评分者始终更喜欢第二阶段模型的输出，而不是其动画图像编辑对应物。具体来说，他们发现该模型在70%以上的时间里对文本的忠实度更高，在61%以上的时间内对其质量的评价更高。

阶段III：反向翻译与标准微调 。评估每个阶段的贡献。为了评估每个训练阶段的贡献，我们将每个阶段的模型与前一阶段的模型进行比较。如表21所示，第二阶段（第5.1.3节）

与第一阶段模型相比，它有了显著的改进，人类评估者在89%以上的时间里更喜欢它。第三阶段（第5.1.4节）的好处更微妙，在60%以上的情况下，人类评估人员更喜欢Movie Gen Edit而不是第二阶段模型。重要的是，第三阶段的大部分贡献都反映在编辑视频质量的提高上，在文本忠实性方面只有很小的权衡

6 联合音效和音乐生成

我们使用MOVIE GEN AUDIO的目标是为视频剪辑和短片生成配乐（Holman,2012），长度可能从几秒到几分钟不等。这本文中考虑的配乐包括环境声音、音效（福利）和器乐，但不包括语音或带有人声的音乐。特别是环境声音应与视觉环境相匹配，音效应与动作相一致，且与视觉对象相一致，音乐应表达视频的情绪和情绪，与音效和环境相融合，并与场景相一致，就像人们在观看电影时所期望的那样。

为了生成可变持续时序的视频的音轨，我们建立了一个单一的模型，该模型既可以在给定视频的情况下执行音频生成，也可以在给定具有部分生成音频的视频的情况下执行音频扩展。我们的目标是在单个镜头中生成长达30秒的音频，并允许模型利用扩展来生成任意长度的音频。图27示出了用于长格式视频生成的过程。

我们通过训练模型来执行掩蔽音频预测来实现音频扩展，其中模型在给定整个视频及其周围音频的情况下预测音频目标。周围音频可以是空的(即，音频生成)，在目标音频之前或之后(即，在任一方向上的音频扩展)，或者在目标周围(即，音频填充)。音频填充对于修复包含伪像或不需要的声音效果的小片段非常有用。

最后，出于声音设计的目的，用户通常希望指定应该将什么以及如何将声学事件添加到视频中，例如决定要强调什么屏幕上的声音、要添加什么屏幕外的声音、是否有背景音乐以及为音乐生成什么风格。为了给用户提供更多的控制，我们启用了文本提示。

图27：Movie Gen Audio扩展图。用户为每个视频块提供视频(例如，58s)和音频字幕(例如，20s)。从第二块开始，模型不仅获取视频块和字幕，而且还获取来自先前生成的音频(例如，最后5秒)的片段，以便生成与先前块一致的新块。

6.1模型

我们采用基于Flow Matching（Lipman等人，2023）的生成模型和Diffusion Transformer（DiT）（Peebles和Xie，2023）模型架构。增加了额外的调节模块来提供控制。图28示出了模型架构。

图28 ：Movie Gen Audio模型图。黄色块表示输入，蓝色块表示预训练和冻结的模块，灰色块表示没有可学习参数的操作，绿色块表示可学习模块，粉色块表示输出速度 .调节输入c包括屏蔽音频上下文、视频和文本。Xt是来自pt的样本，t是流媒体的时序步长。对于音频上下文，我们将DAC-VAE输出的屏蔽帧替换为零

6.1.1 Flow Matching

我们选择扩散型模型（Ho等人，2020；Song等人，2020）优于基于离散token的语言模型（Kreuk等人，2022），因为（1）它在声音、音乐和语音生成方面表现出很强的经验性能（Liu等人，2023b；Ghosal等人，2023；Majumder等人，2024；Shen等人，2023；Huang等人，2023），（2）其非自回归性质允许灵活的生成方向，并且可用于两个方向上的填充或外填充，（3）在连续空间中对音频进行建模，使得诸如SDEdit（Meng等人，2022）和多重扩散（Bar-Tal等人，2023）等技术的应用能够通过配置ODE参数来灵活地权衡运行时的质量，（4）它使用户能够通过配置ODE参数来灵活地权衡运行时的质量，并享受蒸馏或一致性训练技术的最新进展，这些技术在低得多的运行时显著提高质量。另一方面，我们选择Flow Matching而不是扩散，因为我们发现与扩散模型相比，它实现了更好的训练效率、推理效率和性能，如最近的工作所示（Lan等人，2024；Le等人，2023；Vyas等人，2023；Prajwal等人，2024；Mehta等人，2024；Esser等人，2024）。

6.1.2 Diffusion Transformer模型

MOVIE GEN AUDIO采用Diffusion Transformer（DiT）架构（Peebles和Xie，2023），该架构在每个Transformer块中调制具有尺度和偏置的归一化层的输出，以及具有尺度的自注意力和前馈层的输出（Vaswani等人，2017）。多层感知器（MLP）将流动时序嵌入作为输入，并预测六个调制参数（四个尺度和两个偏差）。MLP在所有层之间共享，不同于原始DiT，并且只有依赖于层的偏差被添加到MLP输出中。这在不牺牲性能的情况下节省了参数。下一节描述如何调节其他输入。

6.1.3音频表示和调节模块

音频。 采用Latent Diffusion框架（Rombach等人，2022），其中数据（48kHz）被表示为维度

的紧凑1D latent特征，帧速率大幅降低（25Hz），C=128从单独训练的DAC-VAE（描述音频编解码器（Kumar等人，2024），具有变分自编码器（Kingma，2013）公式）模型中提取。与音频扩散模型中用于24kHz音频的常用Encodec（Défossez等人，2022）特征（75Hz，128-d）相比（Shen等人，2023；Vyas等人，2023），我们的DAC-VAE提供了更低的帧速率（75Hz→25Hz）、更高的音频采样率（24kHz→48kHz）和更高的音频重建质量。具体来说，为了在类似的比特率下优于Encodec，DAC采用多尺度STFT鉴别器来减少周期性伪影，并添加了Snake（尹子等人，2020）激活函数来引入受BigVGAN（李等人，2022b）架构启发的周期性电感偏置。尽管DAC的代码因式分解技术也大大减少了量化误差以获得更好的重建，但是离散token对于扩散式模型不是必需的。因此，我们从DAC中去除残差矢量量化器（RVQ）（van den Oord等人，2017；Gray，1984），并用变分自编码器（VAE）（Kingma，2013）目标进行训练（增加了KL正则化以鼓励潜伏正态分布）。这显著提高了重建性能，尤其是在更压缩的帧速率(25Hz)下。

视频。从MetaCLIP（Xu等人，2023）微调的长提示MetaCLIP用于提取视频中每一帧的1024维嵌入。由于视频的帧速率可能与音频的帧速率不匹配，因此我们为每个音频帧取最近的视觉帧。然后利用门控线性投影层将重采样序列投影到DiT模型维度，并逐帧添加到音频特征。与沿时序维度连接特征相比，逐帧添加视觉和音频特征改善了视频-音频对齐，因为前者提供了对视频-音频帧对齐的直接监督。我们还探索了从视频自编码器中提取的用于调节的基于重建的特征，与对比特征相比，这有望保留更多的视频细节。然而，结果明显更差，并且由于每帧的大特征尺寸也减慢了训练速度。我们的结论是，用对比目标训练的长提示元剪辑特征（Oord等人，2018；Radford等人，2021）编码了更高级别的语义信息，使学习变得容易，同时保持足够的低级细节，以捕捉每个运动的时序，使模型产生运动对齐的声音效果。

音频上下文。 我们遵循Voicebox（Le等人，2023）和Audiobox（Vyas等人，2023）框架，并以部分屏蔽的目标音频为条件，这是我们创造的音频上下文。这使得模型能够填充（或外填充，取决于Mask的位置）与上下文一致的音频。在不以上下文为条件的情况下，当仅给定视频将独立生成的音频片段拼接在一起时，音频听起来会不连贯并且突然改变，尤其是当音频包含沉重的环境声音或音乐时。音频上下文也被表示为DAC-VAE特征序列，并且沿着信道维度逐帧地与噪声音频潜在连接。对于屏蔽帧，我们用零向量替换它。为了在没有任何音频上下文的情况下执行音频生成，我们只需输入音频上下文的零矢量序列。

文本。 如果有音乐，我们使用文本来提供关于目标音频质量、声音事件和音乐风格的额外指导，我们将其统称为音频字幕，其详细信息在第6.2.4节中描述。T5-base（Raffel等人，2020）用于将音频字幕编码成756维特征的序列，其中序列长度上限为512个token。我们在每个DiT Transformer块中的自注意层之后和前馈层之前插入一个交叉注意层，用于调节。

6.1.4推理：one-shot生成

在训练期间，每个条件输入（视频、音频上下文、文本）以一定概率独立地退出。这使得模型能够通过简单地改变条件输入，利用单个模型执行(1)视频到音频(V2A)生成(丢弃文本和音频上下文)，(2)文本指示的视频到音频(TV2A)生成(丢弃音频上下文)，(3)视频到音频填充或扩展(丢弃文本)，以及(4)文本指示的视频到音频填充或扩展。

6.1.5推理：音频扩展

由于内存约束和训练效率考虑，训练数据被限制在预定长度。为了为长度超过上限的视频生成高质量和连贯的长格式音频，我们考虑两种算法：段级自回归生成和多重扩散（Bar-Tal等人，2023）。

片段级自回归生成 。该算法模拟语言模型的自回归生成，但作用在片段级别。

为了进一步提高片段级自回归生成的性能，我们还探索了片段级beam搜索。在每个片段处，生成多个候选者，并且通过评分模型对所得到的部分代进行排序和修剪。这些最高候选被用作前缀，以生成下一段的多个候选。

多重扩散。 其成功利用 512✖️512 图像一个扩散模型生成9倍宽的全景图像512✖️4608 ，以及在第3.1.5节中描述的对视频上采样的应用，受此启发，我们探索了用于音频扩展的多重扩散，这实际上是全景生成问题的音频版本。

6.1.6模型、训练和推理配置

DiT模型有36层，注意力/前馈维度为4,608/18,432，总共有13B个参数（不包括长提示MetaCLIP、T5和DAC-VAE）。在预训练中，视频的上限为30秒（750帧），如果长度超过，则随机分块。在微调中，我们从视频中随机采样10秒和30秒的片段。完全分片的数据并行用于适应模型大小。

模型分两个阶段训练：预训练和微调，使用相同的训练目标，但不同的数据（在第6.2.2节和第6.2.3节中描述）和优化配置。

对于预训练，有效batch size为1,536个序列，每个序列的上限为30秒（750个token）。该模型针对500K更新进行了预训练，在384个GPU上需要14天，使用1e-4的恒定学习率，前5K步线性上升。

对于微调，有效batch size为256个序列，也以30秒为上限。该模型针对64个GPU上的50K更新对预训练的检查点进行微调，这需要一天的时间。学习率线性上升。

对于前5K步到1e-4，然后对于剩余的步线性衰减到1e-8。在微调期间累积衰减为0.999的指数移动平均（EMA）检查点，并用于推断。权重衰减为0.1、精度为bf16的AdamW优化器用于预训练和微调。

为了利用无分类器指导（CFG）进行推理，在训练期间，我们以0.2的概率完全丢弃条件输入（视频、文本、音频上下文）。为了实现音频生成和音频扩展，掩蔽的音频以0.5的概率被丢弃(即，完全掩蔽)，否则在75%至100%之间被掩蔽。为了减少对任一模态的依赖，文本和视频输入以各自0.1的概率独立地丢弃。

对于推理，使用具有64个步骤的中点解算器。我们没有发现使用自适应dopri5求解器或增加步骤数来提高性能。我们在无条件向量场上使用权重为3的CFG，并进一步用每个样本8个候选进行重新排序。音效生成使用7.0的质量分数，音效和音乐联合生成使用8.0。对于音频扩展，我们使用权重为3的动态引导（Wang等人，2024c）和默认情况下三角形窗口为

、

和

的多重扩散。