Andrew Brown是Meta AI的研究员，他介绍了Met-20241006083811_黄建同学的专栏文章_微信文章

Andrew Brown是Meta AI的研究员，他介绍了Meta AI的Meta Movie Gen（

网页链接）是如何实现的，有非常多有趣的点，值得深读↓#ai##科技#

1. 从大的层面，Meta Movie Gen 是一组可以进行文本到视频生成、文本到图像生成、个性化、编辑和视频到音频的模型。以下介绍主要聚焦在文本生成视频的技术实现。

2. 一个有趣的发现：扩大数据、计算和模型参数非常重要！做了这些关键点之后，他们转向简单常用的 LLM 架构 (Llama)，就可实现 SOTA 视频生成质量。

3. T2V、个性化和编辑模型都来自相同的训练方法。在预训练期间，我们首先训练 T2I，然后训练 T2V。使用此模型作为初始化，我们进行 T2V 后训练，并训练个性化 T2V 和 V2V 编辑功能。（图1）

4. 我们使用流匹配（flow matching）在压缩潜在空间上训练Transformer，以文本为条件。开始的工作使用了 DiT。但后来决定使用了 Llama 架构（特别是 Llama3，但做了一些小改动）。

5. 我们是第一个使用 Llama 架构进行多媒体生成的。在论文中，我们实际上表明，对于 T2V，Llama 模型在质量和文本对齐方面都明显优于 DiT - 这是一个惊人的结果！

6. Movie Gen 是一个 30B 参数Transformer。我们的全栈可生成具有不同宽高比和同步音频的 1080p 视频，最大时长为 16 秒，帧率为 16fps。
该堆栈包括我们的预训练模型、空间上采样器、V2audio 模型。

7. 预上采样后，我们的模型生成 768 像素，256 帧。通过我们的自动编码器进行8x8x8 ( HWT) 压缩，可产生最大长度为 73k 个视频标记的序列。因此，我们使用了许多并行方法。

8. 我们的 T2V 模型有多阶段训练方案。首先是 T2I 训练，然后是低分辨率训练（256px），然后是高分辨率训练（768px），最后是后期训练。
我们尝试联合训练 T2I + T2V，但这导致收敛速度慢得多，质量也更差。（图2）

9. 如何评估？
文本到视频的评估很难。自动化指标非常差，与人工评估的相关性也不好。因此，我们完全依赖人工评估。
我们花费了大量精力将视频评估分解为多个正交的质量和对齐轴。（图3）

10. 结果如何？
我们要么与 1000 个即时评估集上的模型进行比较，要么使用他们网站 (Sora) 上的视频。我们计算统计信号以确保评估的公平性和可靠性。（图4）

- Movie Gen在质量和一致性方面全面胜出或不相上下
- Movie Gen 在整体质量和对齐方面明显优于 Sora，并且非常明显优于 Gen3。
- 真实感和美学照片级真实感，Movie Gen全面获胜

一些额外的发现：
（1）flow matching 流匹配！
我们在消融过程中发现，流匹配在质量和对准方面优于扩散（diffusion），而且使用起来也非常可靠。
我们发现验证损失与人类评估相关——这非常有用！（图5）

（2）Llama模型！
我们发现 Llama 在质量和文本对齐方面优于 DIT。期待社区中的其他人继续使用 Llama 进行多媒体生成！（图6）

（3）数据很重要！
好吧，这不是我的新发现。但清理视频数据很难。对于预训练，我们在论文中详细介绍了如何过滤和清理。对于后训练，我们依靠自动和手动过滤。（图7）

（4）T2V 评估很难！
UCF 上的 FVD 不会成功。而且人工评估是主观的。然而，我们表明，广泛的审计和指标分解可以产生非常低的方差和可靠的人工评估信号！
我们投入了大量的工作来确保我们的评估公平可靠。我们在技术报告中列出了有关此问题的大量详细信息（特别是与 Sora 评估相关的信息，我们无法访问其模型）（图8）

ChatGPT

Andrew Brown是Meta AI的研究员，他介绍了Met-20241006083811

正文

2024-10-06 08:38
本条微博链接