缩放定律(Scaling Law)是大语言模型(Large Language Model,LLM)取得成功的关键之一,但在视觉自回归模型中,情况却完全不同。
不断扩大自回归模型的规模,并不能让其在视觉领域中的性能飞升。
相比之下,扩散模型凭借其生成过程中的多步优化,展现出更强的图像生成能力和视觉细节表现,这使得部分学者开始怀疑,缩放定律真的适用视觉领域吗?
不过,由于自回归模型在文生图等跨模态应用及全局结构调整能力等方面还具有较大潜力。因此,我们还是有必要进一步理解自其在计算机视觉生成任务中的缩放行为。
于是,针对这种性能差距,Google DeepMind 与麻省理工学院
何恺明
团队提出了假设。
他们认为,图像生成任务中常用的向量量化(Vector Quantization, VQ)步骤可能引入了大量信息损失,限制了模型的生成能力。相比之下,使用连续的 token 表示则可以保持更多的信息,从而生成出更高质量的图像。
此外,生成顺序的选择也可能极大影响生成结果的全局结构:固定栅格顺序(即从左到右、从上到下的生成方式)类似于与语言模型中的因果注意力机制,能够实现快速推理;而随机生成顺序则允许模型在生成过程中不断调整全局结构,在多物体生成和复杂场景中表现会更为出色。
延续这一思路,研究团队推出了模型 Fluid,它采用了一种与以往不同的生成顺序和标记表示方式,旨在提高自回归文本到图像生成模型的性能和视觉效果。
图丨 Fluid 文本到图像生成框架(来源:
arXiv
)
具体来说,Fluid 模型摒弃了传统的离散化方法,转而使用连续标记表示法。传统的自回归图像生成模型通常将图像离散化为一组固定词汇的标记,这一过程会导致信息的大量丢失,从而影响生成图像的质量。
而 Fluid 模型则采用了一种基于扩散损失(Diffusion Loss)的连续标记表示方式。这是一种渐进式优化策略,通过对图像生成过程中的每一步进行噪声加权,逐渐减少噪声的方式来生成图像。这种方法消除了向量量化的需求,从而避免了因量化引起的信息丢失,保留了更多的原始图像细节信息。
图丨扩散损失(来源:
arXiv
)
相比传统的离散标记,连续标记可以更精细地捕捉图像中的颜色、纹理和边缘等信息,从而提升了图像的重构质量,特别是在高分辨率和复杂场景下,其表现突出。
图丨不同 tokenizers 的重建质量(来源:
arXiv)
在生成顺序方面,Fluid 模型引入了一种随机顺序生成的策略。这种策略与常见的固定栅格顺序生成不同,后者通常依赖 GPT 类型的 Transformer 架构,逐行从左到右依次生成标记。这种固定顺序的生成方式尽管能够利用 KV(Key-Value)缓存进行快速推断,但也限制了模型对全局图像结构的灵活调整能力。
Fluid 模型则借鉴了 BERT-like 双向注意力机制,以随机顺序对标记进行生成,这使得模型在每一步生成时都可以对图像的整体结构进行调整,从而在生成包含多个对象的复杂场景时表现出色。
图丨具有不同顺序的自回归模型(来源:
arXiv
)
实验结果显示,Fluid 模型在多个评价指标上均取得了优异的成绩。
在 MS-COCO 数据集上的零样本 Frechet Inception Distance(FID)得分为 6.16,明显优于许多基于离散标记的生成模型。而在 GenEval 基准测试中,Fluid 模型获得了 0.69 的总体评分,这表明它在生成符合文本描述的图像方面具有很强的能力。
图丨 Fluid 在 MS-COCO 零样本 FID-30K 和 GenEval 基准上均取得了领先成绩(来源:
arXiv
)
更关键的是,研究人员发现 Fluid 模型在扩展参数规模时,其验证损失和生成性能的质量能够稳定地随着模型规模的增加而提升。且随着模型规模的增加,生成图像的视觉质量和文本对齐度也得到持续改善,Scaling 在视觉自回归模型中同样有效!
图丨随着模型尺寸的增加,视觉质量和图像文本对齐得到改善。(来源:
arXiv
)
相关成果以《Fluid:使用连续标记扩展自回归文本到图像生成模型》(
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
)为题发表在预印本网站
arXiv
上 [1]。
Deepmind 研究员 Lijie Fan 是第一作者,研究员 Yonglong Tian 担任通讯作者。