专栏名称: 歸藏的AI工具箱

产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔

Meta 发布视频生成和编辑模型，来看看项目负责人的论文导读

歸藏的AI工具箱 · 公众号 · 互联网短视频科技自媒体 · 2024-10-05 12:10

主要观点总结

Meta公司发布了Meta Movie Gen视频音频生成模型系列，包括视频编辑模型和人物ID保持功能。该系列模型能够实现文本到视频生成、文本到图像生成、个性化编辑和视频到音频转换等功能。其中，Movie Gen Video是一个30B模型，可以生成高质量、高清晰度的图像和视频。Movie Gen Audio是一个13B的transformer模型，可以生成与视频同步的高保真音频。

关键观点总结

关键观点1: Meta Movie Gen模型系列介绍

Meta昨晚发布了Meta Movie Gen视频音频生成模型系列，包括视频生成、文本到视频生成、个性化编辑等功能。

关键观点2: Movie Gen Video和Audio的特点

Movie Gen Video是一个30B模型，能够根据文本提示生成高质量、高清晰度的图像和视频。Movie Gen Audio是一个13B的transformer模型，可以接受视频输入和文本提示，生成与视频同步的高保真音频。

关键观点3: 模型的核心技术

Meta Movie Gen模型采用了纯粹的Transformer架构，使用了流匹配技术。数据质量对模型性能至关重要，该模型在预训练阶段进行了严格的过滤和清理。评估模型性能完全依赖于人类评估，因为自动评估指标效果不佳。

关键观点4: 模型的规模和对齐

扩大数据、计算和模型参数的规模非常重要。流匹配技术的使用使得模型在质量和对齐方面优于扩散模型。Llama架构的应用使得模型在文本到视频生成方面表现出卓越的性能。

关键观点5: 模型的评估方法

文本到视频的评估是一个难题，自动评估指标效果不佳。因此，该模型完全依赖于人类评估，并且花费了大量精力将视频评估分解为多个独立的质量和对齐维度。模型的评估可以通过统计显著性方法确保公平性和可靠性。

正文

Meta 昨晚发布了Meta Movie Gen视频音频生成模型系列，其中的视频编辑模型和人物ID保持很有意思。

Movie Gen Video：30B 模型，单个文本提示生成高质量、高清晰度的图像和视频。

Movie Gen Audio：13B transformer模型，可以接受视频输入以及可选的文本提示用于可控性，生成与视频同步的高保真音频。

Personalized videos：使用生成或现有视频以及附带的文字说明作为输入，可以执行本地化编辑，如添加、删除或替换元素。

早上发现他们团队的视频生成模型负责人做了一个技术报告的论文导读，把重点讲的很清楚。国内几个团队估计抱着论文库库读呢。

这里挑几个自己觉得 比较核心的点 ：

• Meta Movie Gen 是一个纯粹的 Transformer 架构模型，不是DiT，还使用了流匹配 (flow matching) 技术。 • 视频生成模型的自动评估完全不可用，他们全部依赖人类评估，花了大量精力将视频评估分解为多个独立的质量和对齐维度。 • 数据质量至关重要！他们在论文中详细介绍了如何进行过滤和清理，可以仔细看看。 • 消融实验中发现，流匹配(flow matching) 在质量和对齐方面优于扩散模型。它的使用也非常稳健。

全部解读

Meta Movie Gen 是一系列模型的集合，可以实现文本到视频生成、文本到图像生成、个性化、编辑和视频到音频转换。这里主要讨论视频生成的部分。

• 扩大数据、计算和模型参数的规模非常重要（这似乎是显而易见的）。将这些与流匹配 (flow matching) 技术相结合，并转向一个简单的常用大语言模型 (LLM) 架构（Llama），最终产生了最先进的视频生成质量。 • 文本到视频 (T2V)、个性化和编辑模型都采用相同的训练方法。在预训练阶段，首先进行文本到图像 (T2I) 训练，然后进行 T2V 训练。以此模型为基础，我们进行 T2V 后训练，并且还训练了个性化 T2V 和视频到视频 (V2V) 编辑的功能。 null

• 在压缩的潜在空间上训练了一个 Transformer 模型，使用流匹配技术，并以文本为条件。使用了 Llama 架构（具体来说是 Llama3，有几处小改动）。 • 首个将 Llama 架构用于媒体生成的团队。事实上，在论文中展示了这个 Llama 模型在 T2V 的质量和文本对齐方面明显优于 DiT。 • Movie Gen 是一个拥有 300 亿参数的 Transformer 模型。我们的完整技术栈可以生成 1080p 分辨率的视频，支持不同的宽高比和同步音频，最长可达 16 秒，帧率为每秒 16 帧。 • 这涉及到多长的序列？在上采样之前，模型生成 768 像素的分辨率，共 256 帧。通过自动编码器进行 8x8x8（高度 x 宽度 x 时间）的压缩，导致最大序列长度达到 73,000 个视频 tokens。 • 为 T2V 模型设计了一个多阶段的训练方案。首先是 T2I 训练，然后是低分辨率（256 像素）训练，接着是高分辨率（768 像素）训练。最后是后训练阶段。曾尝试过联合训练 T2I 和 T2V，但这导致收敛速度明显变慢，质量也较差。

null

• 关于评估，文本到视频的评估是一个难题。自动评估指标效果不佳，与人类评估的相关性不高。因此，我们完全依赖人类评估。花了大量精力将视频评估分解为多个独立的质量和对齐维度。

null

• 结果如何？要么在我们的 1000 个提示评估集上与其他模型进行比较，要么使用它们网站上的视频（如 Sora）。我们计算统计显著性以确保评估的公平性和可靠性。

null

• Movie Gen 在整体质量和对齐方面显著优于 Sora，并且非常显著地优于 Gen3。在真实性和美学测试（评估照片真实感）方面，Movie Gen 在各个方面都显著胜出。 • 流匹配技术！消融实验中发现，流匹配在质量和对齐方面优于扩散模型。它的使用也非常稳健。而且我们发现验证损失与人类评估相关——这一发现非常有价值！

null

• Llama 架构！在前面已经讨论过这个，但我们发现 Llama 在质量和文本对齐方面优于 DIT。我们期待社区中的其他研究者在媒体生成方面继续探索 Llama 的潜力！

null

•

Meta 发布视频生成和编辑模型，来看看项目负责人的论文导读

主要观点总结

关键观点总结

关键观点1: Meta Movie Gen模型系列介绍

关键观点2: Movie Gen Video和Audio的特点

关键观点3: 模型的核心技术

关键观点4: 模型的规模和对齐

关键观点5: 模型的评估方法

正文

全部解读

请到「今天看啥」查看全文