专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

文本到视频生成（Text-to-Video Generation, T2V）领域进行了全面的综述

深度学习与图网络 · 公众号 · · 2024-07-19 08:38

正文

大家好，今天给大家介绍一篇最新的研究论文《From Sora What We Can See: A Survey of Text-to-Video Generation》。这篇论文对文本到视频生成（Text-to-Video Generation, T2V）领域进行了全面的综述，特别聚焦于OpenAI最新发布的Sora模型所带来的启示。推荐这篇论文，因为它不仅系统性地梳理了T2V领域的最新进展，还深入分析了Sora模型的创新点及其对未来研究方向的指引，对于理解和推动T2V技术的发展具有重要意义。

1. 基本信息

这篇论文的详细信息如下：

题目：From Sora What We Can See: A Survey of Text-to-Video Generation
作者：Rui Sun*, Yumin Zhang*†, Tejal Shah, Jiahao Sun, Shuoying Zhang, Wenqi Li, Haoran Duan, Bo Wei, Rajiv Ranjan

其中Rui Sun和Yumin Zhang为共同第一作者，Yumin Zhang为通讯作者

作者单位：

Newcastle University, UK：Rui Sun, Yumin Zhang, Tejal Shah, Wenqi Li, Haoran Duan, Bo Wei, Rajiv Ranjan
FLock.io, UK：Jiahao Sun, Shuoying Zhang

代码链接： https://github.com/soraw-ai/Awesome-Text-to-Video-Generation

该代码库收集了文中提到的所有Text-to-Video生成研究的综合列表

论文发布于arXiv预印本平台，发布日期为2024年5月17日。这是一篇最新的综述性文章，旨在全面回顾和分析文本到视频生成（T2V）领域的发展，特别关注了OpenAI最新发布的Sora模型所带来的启示。

2. 研究背景

本文的研究背景可以从以下几个方面详细阐述：

T2V技术的发展历程：

早期阶段（2017-2020）：主要集中在简单场景的生成，如低分辨率、单一物体、短时间视频。代表性工作包括Sync-DRAW、TGANs-C等。
中期阶段（2020-2022）：开始探索更复杂的场景生成，引入扩散模型和自回归模型。代表性工作有DALL·E、Stable Diffusion等。
最新阶段（2023-至今）：能够生成高质量、长时间、复杂场景的视频。Sora的发布标志着这一阶段的到来。

Sora模型的突破性进展：

能够处理长达一分钟的高质量视频生成任务。
展示了强大的世界模拟能力，可以根据文本描述生成复杂、逼真的场景。
能够处理更长、更复杂的文本提示，生成连贯的多镜头视频。

现有技术面临的挑战：

动态一致性：在长时间视频中保持物体运动的连贯性和合理性。
复杂场景生成：准确模拟真实世界的物理规律和复杂交互。
多物体交互：生成多个物体之间自然、合理的互动。
长期时序一致性：在长视频中保持场景、角色和故事线的连贯性。

综述的必要性：

T2V技术的快速发展使得现有的综述很快过时 。
Sora的出现为T2V领域带来了新的研究方向和挑战 。
需要全面梳理现有方法、数据集和评估指标，为未来研究提供指导 。

研究意义：

为研究者提供T2V领域的最新进展和技术路线图。
通过分析Sora模型，探讨T2V技术向通用人工智能迈进的可能性。
识别当前技术的局限性，为未来研究指明方向。

这篇综述的独特之处在于，它不仅系统地回顾了T2V领域的发展历程，还特别关注了Sora模型带来的影响和启示，为理解和推动T2V技术的未来发展提供了宝贵的视角。

3. 方法

本文采用系统性的文献综述方法， 从三个主要维度对T2V生成技术进行了全面的分析和归类 。下面我们将详细介绍每个维度的具体内容：

1. 生成器的演化（Evolutionary Generators）

a) 基于GAN/VAE的方法：

Sync-DRAW（2017）：使用VAE结合循环注意力机制生成视频帧序列。其核心思想是将视频生成问题转化为一系列条件图像生成问题。
VQ-VAE（2017）：引入向量量化来解决VAE中的后验崩塌问题。它通过离散化潜在空间来增强模型的表达能力。
TGANs-C（2017）：结合3D卷积和多组件损失函数来生成视频。该方法引入了时序一致性损失，以确保生成视频的时间连贯性。
IRC-GAN（2019）：使用内省循环卷积GAN架构，通过引入循环神经网络来捕捉视频的时序依赖关系。

b) 基于扩散模型的方法：

VDM（Video Diffusion Models，2022）：将标准图像扩散方法扩展到视频数据。VDM使用3D U-Net架构和时间注意力机制来处理视频数据的时空依赖关系。
LVDM（Latent Video Diffusion Model，2022）：在低维潜空间中压缩视频，实现长视频生成。LVDM通过自回归方式生成未来的潜在编码，从而实现任意长度的视频生成。
Make-A-Video（2022）和Imagen Video（2022）：这两个模型将文本到图像技术扩展到视频领域。它们都利用预训练的文本到图像模型作为基础，然后添加时间维度的处理能力。
Sora（2024）：采用DiT（Diffusion Transformer）架构，结合了扩散模型和Transformer的优势，能够生成分钟级的高质量视频。

c) 基于自回归模型的方法：

NUWA（2022）：使用3D transformer编解码器框架，能够处理1D、2D和3D数据。NUWA引入了3D Nearby Attention机制，提高了处理高维数据的效率。
VideoGPT（2021）：结合VQ-VAE和Transformer架构来处理视频生成任务。它首先使用VQ-VAE压缩视频数据，然后使用Transformer模型自回归地生成视频token。
LWM（Large World Model，2024）：设计了RingAttention机制，可以高效处理长达100万个token的序列。LWM通过整合视频和语言数据，实现了多模态理解和生成。

2. 卓越追求（Excellent Pursuit）

a) 延长持续时间：

LTVR（2020）：引入回顾机制来缓解累积预测误差。通过强制生成的回顾帧与观察到的帧保持一致，减少了长期预测中的误差累积。
TATS（2022）：结合时间无关的VQGAN和时间敏感的transformer来生成长视频。TATS通过分离内容生成和运动建模，实现了高质量的长视频生成。
Phenaki（2022）：通过因果注意力机制实现可变长度视频生成。它能够根据新的文本提示动态扩展视频长度。

b) 提高分辨率：

Video LDM（2023）：利用预训练的图像LDM模型，可生成高达1280×2048分辨率的视频。通过训练时间对齐模型，实现了高分辨率视频的生成。
Show-1（2023）：结合像素级和潜空间级VDM，实现高分辨率视频生成（最高572×320）。它首先生成低分辨率关键帧，然后使用潜空间VDM进行上采样。
MoCoGAN-HD（2021）：将视频生成视为发现问题的轨迹，可生成1024×1024分辨率的视频。它利用现代图像生成器来渲染高分辨率视频帧。

c) 提升质量：

DAIN（2019）：利用深度信息进行视频帧插值，改善遮挡和运动处理。DAIN引入深度感知流投影层，优先考虑近处物体的插值。
CyclicGen（2019）：使用循环一致性损失和运动线性损失提高插值帧质量。这种方法能够生成高质量的插值帧，对于高帧率视频生成至关重要。
FLAVR（2023）：直接从视频数据学习运动特性，简化了训练和部署过程。FLAVR使用3D时空卷积进行运动建模，避免了显式光流估计。

3. 现实全景（Realistic Panorama）

a) 动态运动：

LAMP（2023）：专注于从有限数据集学习运动模式。LAMP使用首帧条件管道，让视频扩散模型专注于学习后续帧的运动。
AnimateDiff（2023）：将预训练的运动模块集成到个性化T2I模型中。它引入了MotionLoRA技术，用于适应新的运动模式。
Lumiere（2024）：使用Space-Time U-Net架构一次性生成整个视频，确保全局时间一致性。通过结合空间和时间的下采样和上采样，显著提高了运动生成性能。

b) 复杂场景：

VideoDirectorGPT（2023）：利用LLM进行视频内容规划，生成详细的场景描述和实体布局。它使用新颖的Layout2Vid生成技术确保场景间的空间和时间一致性。
FlowZero（2023）：通过LLM和图像扩散模型生成动态场景语法（DSS），指导视频合成。DSS包括帧级场景描述、前景物体布局和背景运动模式。
SceneScape（2024）：强调3D场景合成中更复杂场景的视频生成。它采用渐进式策略，不断构建和更新场景的统一网格表示，确保几何合理性。

c) 多物体：

Detector Guidance (DG, 2023)：集成潜在对象检测模型，增强生成图像中不同对象的分离和清晰度。DG通过操作交叉注意力图来细化对象表示。
MOVGAN（2023）：采用隐式神经表示和自推断布局运动技术，生成准确表示物体交互和运动的视频。
VideoDreamer（2023）：利用稳定扩散与潜码运动动力学和时间跨帧注意力机制，生成高分辨率视频。它通过Disen-Mix微调和可选的Human-in-the-Loop再微调策略来定制模型。

d) 理性布局：

Craft（2018）：学习从视频-标题数据预测场景中实体的时间布局。它引入了Layout Composer模型，通过理解实体间的空间关系生成合理的场景布局。
FlowZero（2023）：使用LLM将文本提示转换为结构化语法，指导生成时间连贯的视频。它生成帧级前景布局，定义了每帧中提示引用对象的位置和大小。
LVD（2023）：提出LLM引导的视频扩散方法，先生成动态场景布局（DSLs），然后指导扩散模型生成视频。这种方法显著提高了生成视频与所需属性和运动模式的一致性。

通过这种系统的分类和深入分析，本文全面覆盖了T2V生成技术的各个方面，为读者提供了该领域的详细全景视图，同时揭示了各种方法的技术细节和创新点。

4. 实验发现

虽然这篇文章作为一个综述性质的工作没有直接进行实验，但通过分析现有文献中的实验结果，作者总结了一系列重要发现。以下是对这些发现的详细阐述：

生成器演化方面：

a) 扩散模型的优势：

b) 自回归模型的长序列能力：

c) Sora的架构创新：

Sora采用的DiT架构展现出强大的扩展能力，能够高效训练大规模数据 。
DiT结合了扩散模型的生成能力和Transformer的长程依赖建模能力，使Sora能够生成更长、更复杂的视频内容。

NUWA和VideoGPT等自回归模型在处理长序列视频生成任务时表现出色。例如，NUWA能够生成任意长度和分辨率的视频，展现了强大的可扩展性。
这些模型通过有效利用上下文信息，能够保持长期的时序一致性 。

VDM和LVDM等基于扩散模型的方法在生成质量和多样性上显著优于早期的GAN/VAE方法。例如，LVDM能够生成长达1000帧的视频，而保持较高的视觉质量。
扩散模型能更好地处理复杂的多模态分布，生成的视频在细节和整体结构上更加逼真 。

视频质量提升方面：