专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
新京报书评周刊  ·  从佛教到道教,哪吒如何成为中华文化中的护法神? ·  昨天  
十点读书  ·  成熟女人,会为自己的选择买单 ·  昨天  
新京报书评周刊  ·  英国社会学家麦克·布洛维逝世,享年78岁 ·  5 天前  
51好读  ›  专栏  ›  深度学习与图网络

文本到视频生成(Text-to-Video Generation, T2V)领域进行了全面的综述

深度学习与图网络  · 公众号  ·  · 2024-07-19 08:38

正文

大家好,今天给大家介绍一篇最新的研究论文《From Sora What We Can See: A Survey of Text-to-Video Generation》。这篇论文对文本到视频生成(Text-to-Video Generation, T2V)领域进行了全面的综述,特别聚焦于OpenAI最新发布的Sora模型所带来的启示。推荐这篇论文,因为它不仅系统性地梳理了T2V领域的最新进展,还深入分析了Sora模型的创新点及其对未来研究方向的指引,对于理解和推动T2V技术的发展具有重要意义。

1. 基本信息

这篇论文的详细信息如下:

  • 题目:From Sora What We Can See: A Survey of Text-to-Video Generation
  • 作者:Rui Sun*, Yumin Zhang*†, Tejal Shah, Jiahao Sun, Shuoying Zhang, Wenqi Li, Haoran Duan, Bo Wei, Rajiv Ranjan
    • 其中Rui Sun和Yumin Zhang为共同第一作者,Yumin Zhang为通讯作者
  • 作者单位:
    • Newcastle University, UK:Rui Sun, Yumin Zhang, Tejal Shah, Wenqi Li, Haoran Duan, Bo Wei, Rajiv Ranjan
    • FLock.io, UK:Jiahao Sun, Shuoying Zhang
  • 代码链接: https://github.com/soraw-ai/Awesome-Text-to-Video-Generation
    • 该代码库收集了文中提到的所有Text-to-Video生成研究的综合列表

论文发布于arXiv预印本平台,发布日期为2024年5月17日。这是一篇最新的综述性文章,旨在全面回顾和分析文本到视频生成(T2V)领域的发展,特别关注了OpenAI最新发布的Sora模型所带来的启示。

2. 研究背景

本文的研究背景可以从以下几个方面详细阐述:

  1. T2V技术的发展历程:

  • 早期阶段(2017-2020):主要集中在简单场景的生成,如低分辨率、单一物体、短时间视频。代表性工作包括Sync-DRAW、TGANs-C等。
  • 中期阶段(2020-2022):开始探索更复杂的场景生成,引入扩散模型和自回归模型。代表性工作有DALL·E、Stable Diffusion等。
  • 最新阶段(2023-至今):能够生成高质量、长时间、复杂场景的视频。Sora的发布标志着这一阶段的到来。
  • Sora模型的突破性进展:

    • 能够处理长达一分钟的高质量视频生成任务。
    • 展示了强大的世界模拟能力,可以根据文本描述生成复杂、逼真的场景。
    • 能够处理更长、更复杂的文本提示,生成连贯的多镜头视频。
  • 现有技术面临的挑战:

    • 动态一致性:在长时间视频中保持物体运动的连贯性和合理性。
    • 复杂场景生成:准确模拟真实世界的物理规律和复杂交互。
    • 多物体交互:生成多个物体之间自然、合理的互动。
    • 长期时序一致性:在长视频中保持场景、角色和故事线的连贯性。
  • 综述的必要性:

    • T2V技术的快速发展使得现有的综述很快过时
    • Sora的出现为T2V领域带来了新的研究方向和挑战
    • 需要全面梳理现有方法、数据集和评估指标,为未来研究提供指导
  • 研究意义:

    • 为研究者提供T2V领域的最新进展和技术路线图。
    • 通过分析Sora模型,探讨T2V技术向通用人工智能迈进的可能性。
    • 识别当前技术的局限性,为未来研究指明方向。

    这篇综述的独特之处在于,它不仅系统地回顾了T2V领域的发展历程,还特别关注了Sora模型带来的影响和启示,为理解和推动T2V技术的未来发展提供了宝贵的视角。

    3. 方法

    本文采用系统性的文献综述方法, 从三个主要维度对T2V生成技术进行了全面的分析和归类 。下面我们将详细介绍每个维度的具体内容:

    1. 生成器的演化(Evolutionary Generators)

    a) 基于GAN/VAE的方法:

    • Sync-DRAW(2017):使用VAE结合循环注意力机制生成视频帧序列。其核心思想是将视频生成问题转化为一系列条件图像生成问题。
    • VQ-VAE(2017):引入向量量化来解决VAE中的后验崩塌问题。它通过离散化潜在空间来增强模型的表达能力。
    • TGANs-C(2017):结合3D卷积和多组件损失函数来生成视频。该方法引入了时序一致性损失,以确保生成视频的时间连贯性。
    • IRC-GAN(2019):使用内省循环卷积GAN架构,通过引入循环神经网络来捕捉视频的时序依赖关系。

    b) 基于扩散模型的方法:

    • VDM(Video Diffusion Models,2022):将标准图像扩散方法扩展到视频数据。VDM使用3D U-Net架构和时间注意力机制来处理视频数据的时空依赖关系。
    • LVDM(Latent Video Diffusion Model,2022):在低维潜空间中压缩视频,实现长视频生成。LVDM通过自回归方式生成未来的潜在编码,从而实现任意长度的视频生成。
    • Make-A-Video(2022)和Imagen Video(2022):这两个模型将文本到图像技术扩展到视频领域。它们都利用预训练的文本到图像模型作为基础,然后添加时间维度的处理能力。
    • Sora(2024):采用DiT(Diffusion Transformer)架构,结合了扩散模型和Transformer的优势,能够生成分钟级的高质量视频。

    c) 基于自回归模型的方法:

    • NUWA(2022):使用3D transformer编解码器框架,能够处理1D、2D和3D数据。NUWA引入了3D Nearby Attention机制,提高了处理高维数据的效率。
    • VideoGPT(2021):结合VQ-VAE和Transformer架构来处理视频生成任务。它首先使用VQ-VAE压缩视频数据,然后使用Transformer模型自回归地生成视频token。
    • LWM(Large World Model,2024):设计了RingAttention机制,可以高效处理长达100万个token的序列。LWM通过整合视频和语言数据,实现了多模态理解和生成。

    2. 卓越追求(Excellent Pursuit)

    a) 延长持续时间:

    • LTVR(2020):引入回顾机制来缓解累积预测误差。通过强制生成的回顾帧与观察到的帧保持一致,减少了长期预测中的误差累积。
    • TATS(2022):结合时间无关的VQGAN和时间敏感的transformer来生成长视频。TATS通过分离内容生成和运动建模,实现了高质量的长视频生成。
    • Phenaki(2022):通过因果注意力机制实现可变长度视频生成。它能够根据新的文本提示动态扩展视频长度。

    b) 提高分辨率:

    • Video LDM(2023):利用预训练的图像LDM模型,可生成高达1280×2048分辨率的视频。通过训练时间对齐模型,实现了高分辨率视频的生成。
    • Show-1(2023):结合像素级和潜空间级VDM,实现高分辨率视频生成(最高572×320)。它首先生成低分辨率关键帧,然后使用潜空间VDM进行上采样。
    • MoCoGAN-HD(2021):将视频生成视为发现问题的轨迹,可生成1024×1024分辨率的视频。它利用现代图像生成器来渲染高分辨率视频帧。

    c) 提升质量:

    • DAIN(2019):利用深度信息进行视频帧插值,改善遮挡和运动处理。DAIN引入深度感知流投影层,优先考虑近处物体的插值。
    • CyclicGen(2019):使用循环一致性损失和运动线性损失提高插值帧质量。这种方法能够生成高质量的插值帧,对于高帧率视频生成至关重要。
    • FLAVR(2023):直接从视频数据学习运动特性,简化了训练和部署过程。FLAVR使用3D时空卷积进行运动建模,避免了显式光流估计。

    3. 现实全景(Realistic Panorama)

    a) 动态运动:

    • LAMP(2023):专注于从有限数据集学习运动模式。LAMP使用首帧条件管道,让视频扩散模型专注于学习后续帧的运动。
    • AnimateDiff(2023):将预训练的运动模块集成到个性化T2I模型中。它引入了MotionLoRA技术,用于适应新的运动模式。
    • Lumiere(2024):使用Space-Time U-Net架构一次性生成整个视频,确保全局时间一致性。通过结合空间和时间的下采样和上采样,显著提高了运动生成性能。

    b) 复杂场景:

    • VideoDirectorGPT(2023):利用LLM进行视频内容规划,生成详细的场景描述和实体布局。它使用新颖的Layout2Vid生成技术确保场景间的空间和时间一致性。
    • FlowZero(2023):通过LLM和图像扩散模型生成动态场景语法(DSS),指导视频合成。DSS包括帧级场景描述、前景物体布局和背景运动模式。
    • SceneScape(2024):强调3D场景合成中更复杂场景的视频生成。它采用渐进式策略,不断构建和更新场景的统一网格表示,确保几何合理性。

    c) 多物体:

    • Detector Guidance (DG, 2023):集成潜在对象检测模型,增强生成图像中不同对象的分离和清晰度。DG通过操作交叉注意力图来细化对象表示。
    • MOVGAN(2023):采用隐式神经表示和自推断布局运动技术,生成准确表示物体交互和运动的视频。
    • VideoDreamer(2023):利用稳定扩散与潜码运动动力学和时间跨帧注意力机制,生成高分辨率视频。它通过Disen-Mix微调和可选的Human-in-the-Loop再微调策略来定制模型。

    d) 理性布局:

    • Craft(2018):学习从视频-标题数据预测场景中实体的时间布局。它引入了Layout Composer模型,通过理解实体间的空间关系生成合理的场景布局。
    • FlowZero(2023):使用LLM将文本提示转换为结构化语法,指导生成时间连贯的视频。它生成帧级前景布局,定义了每帧中提示引用对象的位置和大小。
    • LVD(2023):提出LLM引导的视频扩散方法,先生成动态场景布局(DSLs),然后指导扩散模型生成视频。这种方法显著提高了生成视频与所需属性和运动模式的一致性。

    通过这种系统的分类和深入分析,本文全面覆盖了T2V生成技术的各个方面,为读者提供了该领域的详细全景视图,同时揭示了各种方法的技术细节和创新点。

    4. 实验发现

    虽然这篇文章作为一个综述性质的工作没有直接进行实验,但通过分析现有文献中的实验结果,作者总结了一系列重要发现。以下是对这些发现的详细阐述:

    1. 生成器演化方面:

      a) 扩散模型的优势:

      b) 自回归模型的长序列能力:

      c) Sora的架构创新:

    • Sora采用的DiT架构展现出强大的扩展能力,能够高效训练大规模数据
    • DiT结合了扩散模型的生成能力和Transformer的长程依赖建模能力,使Sora能够生成更长、更复杂的视频内容。
    • NUWA和VideoGPT等自回归模型在处理长序列视频生成任务时表现出色。例如,NUWA能够生成任意长度和分辨率的视频,展现了强大的可扩展性。
    • 这些模型通过有效利用上下文信息,能够保持长期的时序一致性
    • VDM和LVDM等基于扩散模型的方法在生成质量和多样性上显著优于早期的GAN/VAE方法。例如,LVDM能够生成长达1000帧的视频,而保持较高的视觉质量。
    • 扩散模型能更好地处理复杂的多模态分布,生成的视频在细节和整体结构上更加逼真
  • 视频质量提升方面:

    a) 延长持续时间:

    b) 提高分辨率:

    c) 提升质量:

    • FLAVR等方法在提高帧率和减少视频伪影方面取得了显著进展。例如,FLAVR能够直接从视频数据学习运动特性,生成高达1000fps的流畅视频。
    • DAIN通过利用深度信息进行帧插值,有效改善了遮挡和复杂运动场景的处理,减少了常见的画面撕裂和鬼影效应。
    • CyclicGen的循环一致性损失显著提高了插值帧的质量,使得生成的高帧率视频更加自然流畅。
    • Video LDM等方法已能生成1280×2048分辨率的视频,这大大提升了生成视频的视觉质量和细节水平。
    • 高分辨率下的内容一致性仍需改进。例如,在高分辨率视频中,可能会出现物体细节的不连贯变化或背景元素的闪烁。
    • MoCoGAN-HD通过将视频生成视为发现问题的轨迹,在1024×1024分辨率下取得了良好效果,为高分辨率视频生成提供了新思路。
    • TATS等方法能够生成数分钟长的视频,这是对早期仅能生成几秒钟视频的重大突破。
    • 然而,在保持长期一致性上仍有挑战。例如,在长视频中可能出现角色特征的突变或场景的不连贯变化。
    • Phenaki展示了根据新文本提示动态扩展视频的能力,为长视频生成提供了新的范式。
  • 真实性提升方面:

    a) 动态运动:

    b) 复杂场景:

    c) 多物体:

    d) 理性布局:

    • LVD等方法在生成符合物理规律的场景布局方面取得了进展。例如,LVD能够生成更符合文本描述的空间布局和运动模式。
    • 在处理复杂的空间-时间提示时仍有局限。例如,当文本描述包含复杂的空间关系和时序变化时,生成的视频可能无法完全满足所有约束。
    • Craft在学习视频-标题数据中的时间布局方面展现了潜力,但在处理开放域的复杂场景时仍需改进。
    • DG和MOVGAN等方法改善了多物体生成的质量。例如,DG通过集成潜在对象检测模型,显著提高了生成图像中不同对象的分离度和清晰度。
    • 物体间的交互仍需进一步优化。例如,在涉及多个物体的复杂交互场景中,可能出现不自然的重叠或穿透现象。
    • VideoDreamer在保持主体身份和视觉一致性方面取得了进展,但在处理大量物体的场景时仍面临挑战。
    • VideoDirectorGPT等方法通过结合LLM提高了场景的复杂度和连贯性。例如,它能够生成包含多个场景转换的叙事性视频。
    • 然而,在物理世界模拟方面仍有不足。例如,生成的视频可能违反基本的物理定律,如重力或物体碰撞的不合理表现。
    • SceneScape在3D场景合成中展现了潜力,但在处理动态变化的复杂环境时仍面临挑战。
    • Lumiere等模型在生成连贯、自然的运动序列方面取得了进展。例如,Lumiere的Space-Time U-Net架构能够一次性生成整个视频,确保了全局时间一致性。






    请到「今天看啥」查看全文