专栏名称: AI生成未来
AIGC最新技术及资讯
目录
相关文章推荐
兵团零距离  ·  兵团2025年投资工作现场会在七师胡杨河市召开 ·  16 小时前  
兵团零距离  ·  兵团2025年投资工作现场会在七师胡杨河市召开 ·  16 小时前  
新疆949交通广播  ·  全面启动!乌鲁木齐快速路沿线将有新变化 ·  2 天前  
新疆949交通广播  ·  在新疆,这一幕真暖! ·  2 天前  
新疆949交通广播  ·  降雪、降温,乌鲁木齐未来几天还有雪 ·  3 天前  
新疆949交通广播  ·  投运倒计时!乌鲁木齐国际机场传来好消息 ·  3 天前  
51好读  ›  专栏  ›  AI生成未来

MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?

AI生成未来  · 公众号  ·  · 2024-08-06 01:01

正文

点击下方 卡片 ,关注“ AI生成未来
>>后台回复“GAI”,免费获取AI行业报告和资料!

作者:Shuyang Gu

解读:AI生成未来

文章链接: https://arxiv.org/pdf/2407.18290

亮点直击

  • 概述了视觉生成领域中的各种问题。
  • 这些问题的核心在于如何分解视觉信号,其他所有问题都与这一核心问题密切相关,并源于不适当的信号分解方法。
  • 本文旨在引起研究人员对视觉信号分解重要性的关注。

问题1:生成模型的目标是什么?

在作者看来,生成模型的设计目的是“创造人们所设想的”。数字信号的生成需要经过三个里程碑:

  • 第一个里程碑是将用户的想法翻译成计算机可以理解的格式 。具体来说,这需要识别要生成的信号的模态,这可以是文本、3D物体、视频或其他形式。随后,必须确定在给定条件下要生成的状态。从流形学习的角度来看,这一过程对应于首先确定包络空间的维度D,然后识别模型要模仿的目标分布

  • 在生成建模领域,许多研究人员专注于如何建模 这一挑战。主要的障碍是目标分布的固有复杂性,这通常使得建模变得非常艰难。因此,研究人员不断寻找具有更强建模能力的模型。特别是在视觉生成领域,近年来流行的方法包括基于能量的模型(Energy-Based Models)、变分自编码器(VAEs)、生成对抗网络(GANs)、扩散模型(diffusion models)等。

  • 同时,许多研究人员进一步探索更高级的目标,研究如何以更高的效率和更好的可解释性生成结果。这些研究对实际部署、安全性和负责任AI的发展具有重大意义。

问题2:视觉信号分解问题

建模分布 的努力带来了巨大的挑战,特别是当目标是生成令人信服的文本内容或视频时。这些类型的数据代表了embedding在极高维空间中的低维流形,使得用单一网络直接拟合这些分布变得不切实际。因此,需要将复杂的分布建模问题分解成多个更简单的问题,并分别解决每个子问题。这引出了一个问题: 如何有效地分解这个复杂的分布建模问题?

语言分解

大语言模型的成功在很大程度上归功于对文本信号的有效分解。考虑建模文本序列 的任务,其中 表示从前到后第t个位置的token。

这可以基于位置分割成一系列条件建模子任务: 大语言模型采用自回归模型来近似这些条件分布映射 。这种方法的一个关键方面是,对于自然语言,分解的子任务本质上是相互关联的。例如,一个短语是“我喜欢游泳”,它可能出现在句子的开头或中间。换句话说,它可以出现在任何子任务中。有了足够大的数据集, 代表两个高度相关的任务,可以相互作为数据增强。换句话说,不同的子任务是“等变”的。让我们给“等变”一个严格的数学定义。

定义1 假设目标分布是 ,将信号分割成多个子任务: ... 对于第t个条件概率拟合任务 ,采用网络 来拟合它。对于任意两个任务t和k以及两个状态样本s和 ,如果

将这种信号分解称为等变。

可以观察到,语言分解是独立于位置的。对于任何token 或短语 ,它们在句子中第t个或第k个位置出现的概率几乎相同。这一观察结果与方程2一致,因此表明语言分解表现出等变性。因此,采用单一模型来近似这些不同但相关的任务通常不会导致冲突,实际上,这对数据的整体建模非常有利。

图像块分解

这种分解和建模的策略在语言领域取得了显著成功。然而,将这一方法复制到通过空间位置分解图像会面临不同的挑战。早期的尝试包括将图像分割成空间块以创建可以由自回归模型处理的序列。然而,与自然语言不同,图像块本质上缺乏“等变”特性。如下图1所示,虽然单行块内存在连续性,但这种连续性在一行的最后一个块和下一行的第一个块之间是不存在的。除了连续性之外,还存在其他特定数据集的挑战,例如人类主体倾向于居中在图像中。因此,采用单一、通用的模型来涵盖所有这些不同的分布通常会导致冲突。此外,模型必须努力学习由多个不同分布组成的复杂联合分布映射问题,这破坏了分解复杂分布以简化建模的原则。虽然位置embedding的整合可以缓解一些这些冲突,但这并不是解决问题的万能药。

深度分解

除了空间分割,一些研究人员还探索了沿深度维度分割图像数据。这种方法直观上具有吸引力,因为每个图像空间位置存在大量信息,例如需要8位每通道的三通道RGB表示。另一方面,图像的高空间维度通常需要使用变分自编码器(VAE)来降低维度。结合这两个方面,按深度分割数据的著名方法包括VQVAE2和RQVAE。首先,这些方法可能会遇到“无效编码”问题,将在问题3中详细说明。此外,与自然语言不同,深度维度也不表现出“等变”性。以RQVAE为例,在相同的空间位置,早期token表示低频信息,而后期token表示高频信息。因此,应用具有共享参数的自回归模型来建模这些不同的分布映射可能会导致冲突。一种替代方法,如MUSE,建议将问题分割成更少数量的独特子任务,每个子任务独立建模且不共享参数。然而,随着数据分布变得越来越复杂,这可能需要更多的子任务,导致所需模型参数激增,并可能加剧“无效编码”问题。

噪声强度分解

扩散模型提出了另一种有趣的信号分解方法:通过一系列逐步去噪的图像序列来表征图像。对于数据集中给定的图像 ,通过马尔可夫过程逐步添加噪声以生成序列







请到「今天看啥」查看全文