专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

Latte：一个类似Sora的开源视频生成项目

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-03-28 04:56

主要观点总结

本文主要介绍了类似OpenAI的Sora视频生成技术的Latte项目，它是一种用于视频生成的潜在扩散转换器。文章介绍了Latte的原理、使用方法及实验效果，包括其类似Sora的技术特点、开源性、原理介绍、使用AutoDL镜像和手动安装的方法，以及生成视频的步骤和注意事项。

关键观点总结

关键观点1: Latte是一种用于视频生成的潜在扩散转换器，其技术路线与Sora类似。

Latte项目利用预训练的变分自编码器将输入视频编码为潜在空间中的特征，并应用一系列Transformer块对这些特征进行建模。它设计了四种不同的高效Transformer变体，以捕捉视频数据中的时空分布信息。

关键观点2: Latte具有生成逼真、连贯时序内容的视频的能力。

Latte在多个标准视频生成数据集上表现出色，达到了最先进的性能水平。此外，它还被扩展到文本到视频生成任务（T2V），表现与当前的T2V模型相当。

关键观点3: 使用Latte进行视频生成有两种方式：使用AutoDL镜像和手动安装。

使用AutoDL镜像可以快速启动Latte进行视频生成，而手动安装则需要更多的步骤。此外，文章还介绍了使用Latte生成视频的详细步骤和注意事项。

正文

大家好，我是每天分享AI应用的萤火君！

前段时间OpenAI发布的Sora引起了巨大的轰动，最长可达1分钟的高清连贯视频生成能力秒杀了一众视频生成玩家。因为Sora没有公开发布，网上对Sora的解读翻来覆去就那么多，我也不想像复读机一样再重复一遍了。

本文给大家介绍一个类似Sora的视频生成项目：Latte。为什么说它类似Sora呢？这个项目的全称是：Latent Diffusion Transformer for Video Generation（用于视频生成的潜在扩散转换器），对Sora生成技术有所了解的同学看到 Diffusion 和 Transformer 这两个单词应该就明白我在说什么了，Sora也同样使用了这两种技术。而且 Sora 和 Latte 都声称参考了 DiT （ Scalable Diffusion Models with Transformers ）项目，它们的技术路线应该都是差不多的。最重要的是 Latte 是开源的，可以自己部署着玩，这篇文章就给大家介绍下 Latte 的原理和使用方法。

对 Diffusion 和 Transformer 这两种技术完全没概念的同学可以看我之前写的一篇科普文章： AI视频生成的重大突破：OpenAI的梦幻制造机Sora

效果演示

下图是官网的文生视频效果展示。注意实际生成时也需要抽卡，有时候效果也是一言难尽。

Latte介绍

Latte（Latent Diffusion Transformer）是一种用于视频生成的创新模型。它首先通过预训练的变分自编码器（VAE）将输入视频编码为潜在空间中的特征，并从中提取出时空令牌（Token）。然后应用一系列 Transformer 块对这些令牌进行建模，以捕捉视频数据分布。由于视频具有复杂的时空信息且高分辨率帧内包含大量细节，Latte设计了四种不同的高效Transformer变体，这四种变围绕如何有效地利用Transformer网络捕获视频数据中的时空分布信息展开，各自探索了不同的空间-时间分解方法、信息融合策略以及计算效率优化方案。

变体1：该变体的Transformer主干结构包括空间Transformer块和时间Transformer块。空间Transformer块专注于在同一时间索引下的视频令牌之间捕捉纯空间信息，通过关注相同时间步内的像素或区域之间的关联性来提取空间特征。而时间Transformer块则采用“交错融合”的方式处理跨时间维度的信息，以捕捉不同时间帧间的变化和动态内容。
变体2：不同于变体1中的即时融合策略，变体2可能采用了“晚期融合”机制，即先独立处理空间和时间维度上的信息，在后续阶段再将两者合并，以另一种方式整合时空上下文。

变体3：此变体主要聚焦于对Transformer内部多头注意力模块进行分解。它首先仅在空间维度上计算自注意力，随后再在时间维度上执行自注意力计算。这样设计的目的是让每个Transformer块能够先后分别从空间和时间角度理解输入序列，并最终综合捕获并建模视频的时空信息。

变体4：变体4将多头注意力（MHA）分解为两个组件，利用不同的组件分别处理空间和时间维度上的令牌。在Transformer主干结构之后，通过采用标准线性解码器以及重塑操作，对视频令牌序列进行解码，从而得出预测噪声和预测协方差。。

在实际应用时，Latte首先将视频帧序列转换为一系列令牌，并利用上述某种变体中对应的 Transformer 结构对这些令牌进行编码和解码。具体来说，在生成阶段，模型会依据学习到的反向扩散过程，在潜在空间中逐步还原出低噪声的视频帧表示，并最终重构为连续且逼真的视频内容。

实验结果显示，Latte在FaceForensics、SkyTimelapse、UCF101和Taichi-HD这四个标准视频生成数据集上，Latte能够生成逼真的、具有连贯时序内容的视频，并在Fréchet视频距离（FVD）、Fréchet Inception Distance (FID)和Inception Score等指标上达到了最先进的性能水平。

此外，Latte还被扩展到文本到视频生成任务（T2V），其表现与当前的T2V模型相当。不过可能模型训练的数据还不够，生成的视频效果还有很大提升空间。

使用Latte

这里主要介绍使用Latte进行推理的方法，有两种方式，一是直接使用我制作的AutoDL镜像，二是手动一步步安装。注意Latte预训练的模型只能生成2秒的视频，更长的视频需要自己训练模型，训练视频模型比较耗费资源，需要的直接看Github上的说明就行了： https://github.com/Vchitect/Latte 。

使用AutoDL镜像

AutoDL访问地址：https://www.autodl.com，AutoDL的注册和使用方法可以看这篇文章：

1、创建服务器实例时镜像选择：Vchitect/Latte/yinghuoai-latte 的最新版本。我已经在3090、4090、3080*2等显卡型号上测试通过，其它型号可能问题也不大。

2、打开服务器实例的 JupyterLab，进入操作环境。

操作环境如下图所示，左侧是文件及目录，我编写了一个生成器的页面，可以在其中直接执行相关视频生成命令，目前可以生成四种固定类型的视频，以及通过文本自由生成视频。

3、点击选中下方的代码单元格后，再点击菜单栏中的“箭头按钮”即可执行对应的生成任务。

注意需要先执行“初始化”命令，后边的视频生成任务随便执行。

任务执行进度如下，执行可能较慢，请耐心等待！

日志中显示了生成的视频位置。

可在左侧目录中找到，然后在对应的文件上右键下载。

手动安装

手动安装步骤比较多，请大家跟紧了。

安装conda

因为需要安装大量的python包，为了方便，我们这里使用conda包管理，没安装的同学先安装： https://docs.anaconda.com/free/miniconda/miniconda-install/

如果已经安装过，可以通过命令升级到最新版本：

conda update -n base -c defaults conda

下载Latte

代码地址： https://github.com/maxin-cn/Latte.git

通过git安装的方法：

git clone https://github.com/maxin-cn/Latte.git

修改依赖包的版本

Latte对python和相关包的版本依赖比较重，实测需要调整下官方提供的环境依赖文件。

在Latte根目录中找到 environment.yml 文件，完整修改如下：

name: latte
channels:
  - pytorch
  - nvidia
dependencies:
  - python = 3.10.8
  - pytorch = 2.0.0
  - torchvision
  - pytorch-cuda=11.7
  - pip
  - pip:
    - timm
    - diffusers[torch]==0.24.0
    - accelerate
    - tensorboard
    - einops
    - transformers
    - av
    - scikit-image
    - decord
    - pandas
    - imageio-ffmpeg

修改的就是下图中这三个：