专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

关于计算机视觉中的自回归模型，这篇综述一网打尽了

新机器视觉 · 公众号 · · 2025-01-03 20:38

正文

作者丨机器之心

来源丨机器之心

编辑丨极市平台

导读

文章全面回顾了自回归模型在图像生成、视频生成、3D生成和多模态生成等任务中的应用，涵盖了约250篇相关文献，提供了一个系统的了解自回归模型在视觉领域发展历程和研究现状的框架。文章还讨论了自回归模型面临的挑战，如计算复杂度和模式崩溃，并提出了潜在的研究方向。

本文是一篇关于自回归模型在视觉领域发展的综述论文，由港大、清华、普林斯顿、杜克、罗切斯特大学、俄亥俄州立、UNC、苹果、字节跳动、香港理工大学等多所高校及研究机构的伙伴联合发布。

随着计算机视觉领域的不断发展，自回归模型作为一种强大的生成模型，在图像生成、视频生成、3D 生成和多模态生成等任务中展现出了巨大的潜力。然而，由于该领域的快速发展，及时、全面地了解自回归模型的研究现状和进展变得至关重要。本文旨在对视觉领域中的自回归模型进行全面综述，为研究人员提供一个清晰的参考框架。

论文标题：Autoregressive Models in Vision: A Survey
论文链接: https://arxiv.org/abs/2411.05902
项目地址： https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey

研究的主要亮点如下：

最新最全的文献综述： 本文对视觉领域中的自回归模型进行了全面的文献综述，涵盖了约 250 篇相关参考文献，包括一些新兴领域的相关文献，比如 3D 医疗、具身智能等。通过对这些文献的整理和分析，本文能够为读者提供一个系统的了解自回归模型在视觉领域的发展历程和研究现状的有效帮助。

基于序列表征的分类： 本文根据序列表示策略对自回归模型进行了分类，包括基于 pixel、基于 token 和基于 scale 的视觉自回归模型。同时，本文还对不同类型的自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中的性能进行了比较和分析。通过这些分类和比较，本文能够帮助读者更好地理解不同类型的自回归模型的特点和优势，为选择合适的模型提供参考。

左边图展示的是 3 种主流的用于自回归视觉模型的表征方法。右边图展示的是自回归视觉模型的主要组成：序列表征方法和自回归序列建模方式。

各种领域的应用总结： 本文详细介绍了自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中的应用。通过对这些应用的总结和分析，本文能够为读者展示自回归模型在不同领域的应用潜力和实际效果，为进一步推动自回归模型的应用提供参考。下面是本文的文献分类框架图：

挑战与展望： 本文讨论了自回归模型在视觉领域面临的挑战，如计算复杂度、模式崩溃等，并提出了一些潜在的研究方向。通过对这些挑战和展望的讨论，本文能够为读者提供一个思考和探索的方向，促进自回归模型在视觉领域的进一步发展。

2. 视觉自回归模型

基础知识

视觉自回归模型有两个核心的组成部分：序列表示和自回归序列建模方法。首先，让我们来了解这两个关键方面：

序列表示：将视觉数据转化为离散元素序列，如像素、视觉词元等。这种表示方法类似于自然语言处理（NLP）中的文本生成中把词分成词元进行后续处理，为自回归模型在计算机视觉领域的应用奠定了基础。举例来说，对于图像数据，可以将其划分为像素序列或者图像块序列，每个像素或图像块作为序列中的一个元素。这样，就可以利用自回归模型依次预测每个元素，从而实现图像的生成或重建。

自回归序列建模：基于先前生成的元素，通过条件概率依次预测每个元素。具体来说，对于一个序列中的第 t 个元素，自回归模型会根据前面 t-1 个元素的信息来预测第 t 个元素的概率分布。训练目标是最小化负对数似然损失。通过不断调整模型参数，使得模型预测的概率分布尽可能接近真实数据的分布，从而提高模型的性能。

2.1 通用框架分类

了解了自回归模型的基础之后，我们接下来看看不同的通用框架分类。下面我们分别介绍基于像素、基于视觉词元和基于尺度的模型。

2.1.1 基于像素（pixel）的模型： 这类模型直接在像素级别表示视觉数据，如 PixelRNN 和 PixelCNN 等。PixelRNN 通过递归神经网络（RNN）捕捉像素间的依赖关系，从图像的左上角开始，依次预测每个像素的值。PixelCNN 则使用卷积神经网络（CNN）来实现像素级别的自回归建模，通过对图像进行卷积操作来获取像素间的局部依赖关系。

但是这类模型在高分辨率图像生成时面临计算成本高和信息冗余的挑战。由于需要对每个像素进行预测，随着图像分辨率的提高，计算量会呈指数增长。同时，像素之间的相关性可能导致信息冗余，影响模型的效率和性能。

2.1.2 基于视觉词元（token）的模型： 将图像压缩为离散视觉词元序列，如 VQ-VAE 及其变体。

这类模型先使用编码器将图像映射到潜在空间并量化为离散代码，再用解码器重建图像。在此基础上，采用强大的自回归模型预测下一个离散视觉词元。例如，VQ-VAE 通过向量量化将图像编码为离散的视觉词元序列，然后使用自回归模型对视觉词元序列进行建模，实现图像的生成和重建。但是这类模型存在码本利用率低和采样速度慢的问题。码本中的视觉词元可能没有被充分利用，导致生成的图像质量受限。同时，由于需要依次预测每个视觉词元，采样速度相对较慢。

2.1.3 基于尺度（scale）的模型： 以不同尺度的视觉词元图作为自回归单元，如 VAR。通过多尺度量化自动编码器将图像离散化为视觉词元学习不同分辨率的信息，生成过程从粗到细逐步进行。例如，VAR 首先在低分辨率下生成粗糙的视觉词元图，然后逐步细化到高分辨率，从而提高生成图像的质量和效率。相比基于视觉词元的模型，它能更好地保留空间局部性，提高视觉词元生成效率。通过多尺度的建模方式，可以更好地捕捉图像的局部结构和细节信息。

不同的通用框架分类各有特点，而自回归模型与其他生成模型也有着紧密的关系。接下来，我们探讨自回归模型与其他生成模型的关系。

2.3 与其他生成模型的关系

自回归模型与变分自编码器（VAEs）、生成对抗网络（GANs）、归一化流、扩散模型和掩码自编码器（MAEs）等生成模型在不同方面有着联系和区别。

变分自编码器（VAEs）： VAEs 学习将数据映射到低维潜在空间并重建，而自回归模型直接捕捉数据分布。两者结合的方法如 VQ-VAE，能有效利用两者优势进行图像合成。VQ-VAE 首先通过编码器将图像映射到潜在空间，然后使用向量量化将潜在空间离散化为视觉词元序列，最后使用自回归模型对视觉词元序列进行建模，实现图像的生成和重建。

生成对抗网络（GANs）： GANs 生成速度快，但训练不稳定且可能出现模式崩溃。自回归模型采用似然训练，过程稳定，虽采样速度慢，但模型性能随数据和模型规模提升。在图像生成任务中，GANs 可以快速生成逼真的图像，但可能会出现模式崩溃的问题，即生成的图像缺乏多样性。自回归模型则可以通过似然训练保证生成的图像具有较高的质量和多样性。

归一化流（Normalizing Flows）： 通过一系列可逆变换将简单分布映射到复杂数据分布，与自回归模型都可通过最大似然估计直接优化。但归一化流需保证可逆性，自回归模型则通过离散化数据和顺序预测更具灵活性。归一化流需要设计可逆的变换函数，这在实际应用中可能会比较困难。而自回归模型可以通过离散化数据和顺序预测的方式，更加灵活地捕捉数据的分布特征。

扩散模型（Diffusion Models）： 与自回归模型类似，两类模型都能生成高质量样本，但是两者在生成范式上有根本区别。当前自回归模型已经逐渐在性能上追赶上扩散模型，且展现了很好的scaling到更大模型的潜力。近期研究尝试结合两者的优势，进一步提高生成模型的性能。

掩码自编码器（MAEs）： MAEs 通过随机掩码输入数据并重建来学习数据表示，与自回归模型有相似之处，但训练方式和注意力机制不同。例如，MAEs 在训练时随机掩码一部分输入数据，然后通过重建被掩码的部分来学习数据的表示。自回归模型则是通过顺序预测的方式来学习数据的分布。两者在训练方式和注意力机制上存在差异。

3．视觉自回归模型的应用

自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中都有着广泛的应用。结合经典的和最新的相关工作，我们做出以下的分类，感兴趣的读者可以在论文中阅读每个子类的详情。

3.1 图像生成

无条件图像生成：像素级生成逐个像素构建图像，如 PixelRNN 和 PixelCNN 等。视觉词元级生成将图像视为视觉词元序列，如 VQ-VAE 及其改进方法。尺度级生成从低到高分辨率逐步生成图像，如 VAR。
文本到图像合成：根据文本条件生成图像，如 DALL・E、CogView 等。近期研究还探索了与扩散模型、大语言模型的结合，以及向新任务的扩展。
图像条件合成：包括图像修复、多视图生成和视觉上下文学习等，如 QueryOTR 用于图像外绘，MIS 用于多视图生成，MAE-VQGAN 和 VICL 用于视觉上下文学习。
图像编辑：分为文本驱动和图像驱动的图像编辑。文本驱动如 VQGAN-CLIP 和 Make-A-Scene，可根据文本输入修改图像。图像驱动如 ControlAR、ControlVAR 等，通过控制机制实现更精确的图像编辑。

3.2 视频生成

无条件视频生成：从无到有创建视频序列，如 Video Pixel Networks、MoCoGAN 等。近期方法如 LVT、VideoGPT 等结合 VQ-VAE 和 Transformer 提高了生成质量。
条件视频生成：根据特定输入生成视频，包括文本到视频合成、视觉条件视频生成和多模态条件视频生成。如 IRC-GAN、CogVideo 等用于文本到视频合成，Convolutional LSTM Network、PredRNN 等用于视觉条件视频生成，MAGE 用于多模态条件视频生成。
具身智能：视频生成在具身智能中用于训练和增强智能体，如学习动作条件视频预测模型、构建通用世界模型等。

3.3 3D 生成

在运动生成、点云生成、场景生成和 3D 医学生成等方面取得进展。如 T2M-GPT 用于运动生成，CanonicalVAE 用于点云生成，Make-A-Scene 用于场景生成，SynthAnatomy 和 BrainSynth 用于 3D 医学生成。

3.4 多模态：

多模态理解框架：通过离散图像视觉词元掩码图像建模方法学习视觉表示，如 BEiT 及其变体。
统一多模态理解和生成框架：将视觉和文本输出生成相结合，如 OFA、CogView 等早期模型，以及 NEXTGPT、SEED 等近期模型。最近还出现了原生多模态自回归模型，如 Chameleon 和 Transfusion。