专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
机器之心  ·  OpenAI ... ·  5 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:明日开奖,欢迎参与~- ... ·  6 天前  
爱可可-爱生活  ·  今日推介(第1646期):面向个性化长文本生 ... ·  1 周前  
爱可可-爱生活  ·  本文提出了REST-PG框架,通过结合推理增 ... ·  1 周前  
51好读  ›  专栏  ›  新智元

GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型

新智元  · 公众号  · AI  · 2025-01-11 12:25

正文



  新智元报道  

编辑:Aeneas 桃子
【新智元导读】GAN已死?不,它卷土重来了!布朗大学和康奈尔大学的研究者刚刚提出了R3GAN,充分利用现代架构设计,彻底摒弃临时技巧,一半参数就能碾压扩散模型。网友惊呼:游戏规则要改变了!

GAN已死?

不,GAN又回来了!

此前曾掀起AI圈巨大风暴的GAN,后来却逐渐沉寂了,甚至有人发出了「GAN已死」的论调。

2022年,「GAN已经过时、被扩散模型取代」的论调激起热议

原因有很多,比如人们普遍觉得GAN很难训练,文献中的GAN架构也充斥着经验技巧。

但就在刚刚,布朗大学和康奈尔的研究者在这篇论文中,要彻底为GAN正名!

论文地址:https://arxiv.org/abs/2501.05441

论文中,作者提出了一种突破性的新型GAN架构——R3GAN(Re-GAN),其最大核心亮点在于,引入了全新的正则化相对性损失函数。

它不仅在理论上证明了局部收敛性,更在实践中显著提升了模型训练的稳定性。

这一突破,使得模型能够摒弃传统GAN中必须依赖的各种技巧,转而采用了更加现代化的深度学习架构。

结果证明,一个不使用任何技巧的极简GAN,能够以一半的模型参数,以及单步生成的方式达到与EDM(扩散模型)相当的性能。

就看这个R3GAN的出图质量是多么地稳定!

围观网友们表示,这绝对是改变游戏规则的一项研究——如果能正确地训练GAN,那简直就是一场噩梦。

在智能体非常爆火的当下,GAN显得前途无量。

因为GAN非常适合需要速度的专门任务,而Transformer则适用于其他所有任务。智能体就可以使用GAN,来加速部分流程,或做出时间关键的决策。

扩散模型风生水起,GAN却陷困境


还记得2014年,当Goodfellow等人首次提出GAN时,整个AI界都为之震动。

一个能够通过单词前向传播生成高质量的模型,简直就是一场革命。

论文地址:https://arxiv.org/pdf/1406.2661

然而,随之而来的困扰也接踵而至——训练不稳定性,成为了挥之不去的阴影。

对于研究人员来说,他们担忧的是害怕模型训练随时会「暴走」,或者生成的图像千篇一律,失去了应有的多样性。

尽管这些年,GAN的目标函数不断改进,但在具体实践中,这些函数的问题是始终如影随形,一直以来对GAN研究产生了持久的负面影响。

随后,2019年,著名的StyleGAN架构诞生了。它就像是一个「补丁大师」,为了提高稳定性,使用了梯度惩罚的非饱和损失;同时又为了增加样本多样性,又不得不采用小批量标准差的技巧。

论文地址:https://arxiv.org/pdf/1812.04948

这些看似矛盾的做法,实际上反映了GAN架构本身的局限性。

更有趣的是,如果去除这些技巧,StyleGAN的骨干网络竟和2015年的DCGAN惊人地相似!

这就不禁让人思考:为什么其他生成模型,比如扩散模型,都能得到快速改进,而GAN却似乎停滞不前?

在扩散模型中,多头自注意力等等现代计算机视觉技术,以及预激活ResNet、U-Net和视觉Transformer(ViT)等骨干网络已成为常态。

考虑到这些过时的骨干网络,人们普遍认为GAN在FID等定量指标方面无法扩展,也就不足为奇了。

好消息是,布朗大学和康奈尔大学的研究人员在这个领域取得了重大的突破。他们提出了一个创新性的解决方案,包含两个关键要素:

- 新型目标函数

将相对配对GAN损失(RpGAN)与零中心梯度惩罚相结合,提高了稳定性。他们在数据上证明了,带梯度惩罚的RpGAN,享有与正则化经典GAN相同的局部收敛性。

- 现代化改造

摒弃StyleGAN反锁技巧,转而采用简洁而高效的现代架构设计。结果发现,适当的ResNet设计、初始化和重采样,同时加上分组卷积和无归一化,就能达到甚至超越StyleGAN的性能。

总的来说,新论文首先从数学上论证了通过改进的正则化损失,让GAN的训练不必那么棘手。

然后,在实验中开发了一个简单的GAN基准,在不使用任何技巧的情况下,在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上,其FID表现优于StyleGAN、其他最先进的GAN和扩散模型。

那么,研究人员具体是如何做到的呢?

RpGAN+R_1+R_2稳定性和多样性


在定义GAN的目标函数时,研究人员面临这两个挑战:稳定性和多样性。

先前的研究中,有的专攻稳定性问题,而有的则处理处理模式崩塌问题。

为了在这两个方面都取得进展,团队将一个稳定的方法与一个基于理论的简单正则化器相结合。

传统GAN

传统GAN是在判别器D_ψ和生成器G_θ之间的极小极大博弈中形成的。给定真实数据x ∼ p_D和G_θ生产的虚假数据x ∼ p_θ,GAN最一般的形式可以表示为:

其中G试图最小化L,而D试图最大化G,f的选择是灵活的。特别地,当时,就得到了Goodfellow等人提出的经典GAN。

实践已经证明,当p_θ可以直接优化时,该方程具有凸性质。然而,在实际实现中,经验GAN损失通常会将虚假样本推到D设定的决策边界之外,而不是直接更新密度函数 p_θ。

这种偏差导致了一个显著更具挑战性的问题,其特征是容易出现两种普遍的失败情况:模式崩塌/丢失和不收敛。

相对f-GAN(Relativistic f-GAN)

这时,研究人员采用了由Jolicoeur Martineau团队提出的一种略有不同的极小极大博弈,称为相对配对GAN(RpGAN),用于解决模式丢失问题。

一般的RpGAN定义如下:

虽然方程2(RpGAN)和方程1(传统GAN)看起来只有细微差别,但评估这种判别器差异对损失函数L的整体形态有根本性影响。

RpGAN通过耦合真实和虚假数据,引入了一个简单的解决方案,即通过将虚假样本相对于真实样本的真实性来进行评判,这有效地在每个真实样本的邻域中维持了一个决策边界,从而防止了模式丢失。

RpGAN的训练动态

尽管RpGAN的景观结果,让研究人员能够解决模式丢失的问题,但RpGAN的训练动态还有待研究。

等式2的最终目标是找到平衡点(θ^∗, ψ^∗),使得p_θ^∗ = p_D且Dψ^∗在p_D上处处为常数。

这里,作者提出了两个命题:

命题 I.(非形式化表述):使用梯度下降法时,未正则化的RpGAN并不总是收敛。

命题 II.(非形式化表述):在与Mescheder等人类似的假设条件下,使用R_1或R_2正则化的RpGAN能够实现局部收敛。

对于第一个命题,他们通过分析表明,对于某些类型的p_D,比如接近于delta分布,RpGAN是不会收敛的。因此,为了构建一个表现良好的损失函数,进一步的正则化是必要的。

对于第二个命题,研究的证明类似地分析了在点(θ^∗,ψ^∗)处正则化RpGAN梯度向量场的雅可比(Jacobian)矩阵特征值。他们证明了所有特征值都具有负实部;因此,对于足够小的学习率,正则化RpGAN在(θ^∗,ψ^∗)的邻域内是收敛的。

实际演示

如下图1展示了,使用R_1正则化的传统GAN损失函数,会快速发散。虽然从理论上来说,仅使用R_1正则化的RpGAN足以实现局部收敛,但它也会表现不稳定并且会快速发散。

同时使用R1和R2正则化后,传统GAN和RpGAN的训练都变得稳定。

如下表1所示,在稳定的情况下,可以看到传统GAN存在模式丢失问题,而RpGAN则实现了完整的模式覆盖,并将D_KL从0.9270降低到0.0781。

作为对比,StyleGAN使用小批量标准差技巧来减少模式丢失,在StackedMNIST数据集上将模式覆盖从857提高到881,但在D_KL上几乎没有改善。

全新基线路线图——R3GAN


精心设计的RpGAN+R_1+R_2损失缓解了GAN的优化问题,使研究者能够以最新的网络骨干进展为基础,构建一个极简的基准模型——R3GAN。

在这项工作中,研究者并不是简单地陈述新方法,而是从StyleGAN2基准模型出发绘制路线图。

该模型包括生成器 (G) 的VGG风格骨干网络、判别器 (D) 的ResNet结构、一系列促进基于风格生成的技术,以及许多弥补弱主干网络缺陷的技巧。

随后,他们移除了StyleGAN2的所有非必要特性,应用了所提出的损失函数,并逐步对网络骨干进行现代化改造。

研究者在FFHQ 256×256数据集上评估了每种配置。

所有配置的网络容量大致保持相同——生成器 (G) 和判别器 (D) 的可训练参数均约为2500万。

每种配置的训练均持续到判别器 (D) 处理了500万张真实图像。除非另有说明,训练的超参数(例如优化器设置、批大小、EMA衰减长度)均沿用自配置A。

研究者针对最终模型调整了训练超参数,并将在第4节中展示其收敛结果。

最小基线(配置B)

研究者移除了所有StyleGAN2的特性,仅保留原始的网络骨干和基础的图像生成能力。

这些特性可分为三类:

- 基于风格的生成:映射网络、风格注入、权重调制/去调制、噪声注入 。
- 图像操作增强:混合正则化、路径长度正则化。

- 技巧:z归一化、小批量标准差、均衡学习率、延迟正则化。

遵循以上做法,研究者将z的维度降低至64。由于移除了均衡学习率,学习率需进一步降低,从原来的2.5×10⁻³降至5×10⁻⁵。

尽管与配置A相比,简化后的基线模型的FID更高,但它仍能生成质量较好的样本,并实现稳定的训练效果。

研究者将其与DCGAN进行比较,主要区别包括:

a) 使用R1正则化的收敛训练目标。

b) 较小的学习率,避免使用带动量的优化器。

c) 在生成器 (G) 和判别器 (D) 中均不使用归一化层。

d) 通过双线性插值进行正确的重采样,而非使用步幅(反卷积)操作。

e) 在G和D中使用leaky ReLU激活函数,G 的输出层中不使用tanh。

f) G使用4×4常量输入,输出跳跃连接,D使用ResNet结构。

StyleGAN的实验发现

违反a)、b) 或 c),通常会导致训练失败。前人研究表明,负动量可以改善 GAN的训练动态。

然而,由于负动量的最优设置是一个复杂的超参数,因此研究者选择不使用任何动量,以避免恶化GAN的训练动态。

研究表明,归一化层对生成模型有害。批归一化通常会由于跨多个样本的依赖性而破坏训练,并且与假设每个样本独立处理的R_1、R_2或 RpGAN不兼容。

早期的GAN虽然可能违反a)和c),但仍能成功,这或许是因为它们对方程1提供了一个满秩解。

违反d)或e)虽然不会显著影响训练的稳定性,但会对样本质量产生负面影响。

不正确的反卷积可能导致棋盘伪影,即使使用子像素卷积或精心调整的反卷积也无法解决,除非应用低通滤波器。

插值方法可以避免该问题,为了简化,研究者采用双线性插值。

在激活函数的选择上,研究者选择使用leaky ReLU。

所有后续配置均遵守a)到e)。f)的违反是可以接受的,因为它涉及到 StyleGAN2的网络骨干,在配置D和配置E中已经现代化。

表现良好的损失函数(配置C):研究者采用第2节提出的损失函数,将 FID降低到11.65。他们推测,配置B的网络骨干是性能的限制因素。

通用网络现代化(配置D):研究者首先将1-3-1瓶颈ResNet 架构应用于G和D。该架构是所有现代视觉骨干网络的直接前身。

图 2:架构对比。在图像生成中,生成器 (G) 和判别器 (D) 通常都是深度卷积网络 (ConvNets),且架构部分或完全对称。(a) StyleGAN2的生成器 (G) 使用一个网络将噪声向量z映射到中间风格空间W。(b) StyleGAN2的构建模块层次复杂,但其本质仍然简单,采用了2015年的卷积网络架构。(c) 研究者去除了各种技巧并对架构进行了现代化设计,如更干净的层次结构,更强大的卷积网络架构

研究者还结合了从配置B中发现的原则,以及ConvNeXt的各种现代化设计。他们将ConvNeXt的发展路线分为以下几类:

i. 持续有益的改进:
- i.1) 使用深度卷积增加网络宽度,
- i.2) 反转瓶颈结构,
- i.3) 减少激活函数,
- i.4) 独立的重采样层。
ii. 性能提升有限:
- ii.1) 较大卷积核的深度卷积配合更少的通道数,
- ii.2) 用GELU替换ReLU,
- ii.3) 减少归一化层,
- ii.4) 用层归一化替换批归一化。
iii. 与模型无关的改进:
- iii.1) 改进的训练策略,
- iii.2) 阶段比率,

- iii.3) 「patchify」的网络输入层。

研究者计划将i)中的改进应用于他们的模型,特别是针对经典ResNet应用的i.3 和i.4,而i.1和i.2则留待配置E。

神经网络架构细节

基于i.3、i.4以及原则c)、d)和e),研究者将StyleGAN2的骨干替换为现代化的 ResNet。

生成器(G)和判别器(D)的设计完全对称,参数量均为2500万,与配置A相当。

架构设计极简:每个分辨率阶段包含一个转换层和两个残差块。

- 转换层:由双线性重采样和一个可选的1×1卷积层组成,用于改变空间尺寸和特征图通道数。
- 残差块:包括以下五个操作:Conv1×1→Leaky ReLU→Conv3×3→Leaky ReLU→Conv1×1,其中最后的Conv1×1不带偏置项。
对4×4分辨率阶段,转换层在G中被基础层替代,在D中被分类头替代:
- 基础层:类似于StyleGAN,使用4×4可学习特征图,通过线性层调制z。

- 分类头:使用全局4×4深度卷积去除空间维度,然后通过线性层生成D的输出。

实验细节

FFHQ-256的路线图见解

如表2所示,配置A(原始 StyleGAN2)在FFHQ-256数据集上使用官方实现,达到了7.52的FID。

移除所有技巧的配置B,实现了12.46的FID,性能如预期有所下降。

配置C使用表现良好的损失函数,FID降至11.65,训练稳定性也得到了显著提升,为改进架构提供了可能。

Config D基于经典ResNet和ConvNeXt的研究改进了G和D,FID进一步降至9.95。

在研究者的新架构下,StyleGAN2生成器的输出跳跃连接不再有用,保留它反而会使FID升高至10.17。

对于Config E,研究者进行了两个实验,分别对 i.1(通过深度卷积增加宽度)和 i.2(反转瓶颈结构)进行消融。

通过反转输入层和瓶颈维度以增强分组卷积的容量,最终模型达到了7.05的 FID,性能超过了StyleGAN2。

模式恢复实验 - StackedMNIST

研究者在StackedMNIST数据集上重复了早期的1000模态收敛实验,但这次使用了更新后的架构,并与当前最先进的GAN和基于似然的方法进行了比较(见表3和图5)。

基于似然的模型(如扩散模型)的一个优势是能够实现模式覆盖。

研究者发现,大多数GAN都难以捕获所有模态。然而,PresGAN、DDGAN和他们的方法在这方面都取得了成功。

FID — FFHQ-256(优化版本)

研究者在FFHQ数据集上,以256×256 分辨率训练Config E模型,直至收敛,并使用了优化的超参数和训练计划(见表4,图4和图6)。

他们的模型在该常见实验设置下,性能优于现有的StyleGAN方法以及四种最新的基于扩散模型的方法。

FID — FFHQ-64

为了直接与EDM进行比较,研究者在FFHQ数据集上以64×64分辨率评估了模型。

为此,他们移除了256×256模型中两个最高分辨率的阶段,从而使生成器的参数数量不到EDM的一半。

尽管如此,模型在该数据集上的表现仍优于EDM,且仅需一次函数评估。

FID — CIFAR-10

研究人员在CIFAR-10数据集上训练Config E模型,直至收敛,并使用了优化的超参数和训练计划(见表6,图8)。

尽管模型容量相对较小,但在FID指标上仍优于许多其他GAN方法。

例如,StyleGAN-XL的生成器参数量为1800万,判别器参数量为1.25亿,而新模型的生成器和判别器总参数量仅为4000万(如下图3所示)。

与基于扩散模型的方法(如LDM、ADM)相比,GAN推理显著更高效,因为GAN仅需一次网络函数评估,而扩散模型在没有蒸馏的情况下通常需要数十到数百次评估。

许多当前最先进的GAN都源于Projected GAN,包括StyleGAN-XL和同时期的StyleSAN-XL。这些方法在判别器中使用了一个预训练的ImageNet分类器。

已有研究表明,预训练的ImageNet判别器可能会将ImageNet的特征泄露到模型中,从而导致模型在FID评估中表现更好,因为它依赖于预训练的ImageNet分类器来计算损失。

然而,这并未在感知研究中提升结果。新模型无需任何ImageNet预训练,即可实现较低的FID。

FID — ImageNet-32

研究人员在ImageNet-32数据集(条件生成)上训练Config E模型,直至收敛,并使用了优化的超参数和训练计划。

如下表7,对比了新方法与近期的GAN模型和扩散模型。

作者调整了生成器的参数数量,使其与StyleGAN-XL的生成器匹配(84M参数),具体来说,他们将模型显著加宽以达到这一目标。

尽管判别器的参数量比StyleGAN-XL小了60%,且未使用预训练的ImageNet分类器,新方法仍然达到了与其相当的FID。

FID — ImageNet-64

研究人员在ImageNet-64数据集上评估了新模型,以测试其扩展能力。

他们在ImageNet-32模型的基础上增加了一个分辨率阶段,使生成器的参数量达到了104M。

这一模型的规模仅为基于ADM骨干的扩散模型的三分之一(ADM骨干约有300M参数)。

尽管新模型规模更小,且仅需一步即可生成样本,但在FID指标上仍然优于许多需要大量网络函数评估(NFE)的更大型扩散模型(如下表8所示)。

召回率

研究人员又在每个数据集上评估了模型的召回率,以量化样本的多样性。总体而言,新模型达到了与扩散模型相似或略差的召回率,但优于现有的GAN模型。

对于CIFAR-10,新模型的召回率最高达到0.57;作为对比,StyleGAN-XL尽管FID更低,但其召回率更差,仅为0.47。

对于FFHQ,新模型在64×64分辨率下获得了0.53的召回率,在256×256分辨率下获得了0.49的召回率,而StyleGAN2在FFHQ-256上的召回率为0.43。

研究者的ImageNet-32模型达到了0.63的召回率,这与ADM相当。

另外,ImageNet-64模型达到了0.59的召回率。虽然这略低于许多扩散模型达到的约0.63的水平,但仍优于BigGAN-deep所达到的0.48的召回率。

作者介绍


Yiwen Huang

Yiwen Huang(Nick Huang)目前是布朗大学计算机科学博士生。他曾于2023年获得了布朗大学硕士学位。

Aaron Gokaslan

Aaron Gokaslan是康奈尔大学的四年级博士候选人,导师是Volodymyr Kuleshov。此前,他在Facebook AI Research工作,由Dhruv Batra指导。

在此之前,他布朗大学完成了硕士和本科学业,师从James Tompkin。

Gokaslan的研究重点是识别、设计和构建高效、可扩展、可持续且经济的生成建模研究抽象和基础设施。我也在数据、法律和AI政策的交叉领域开展工作。

Volodymyr Kuleshov

Volodymyr Kuleshov目前是康奈尔大学计算机科学系助理教授。他曾在斯坦福大学获得博士学位,并获得了Arthur Samuel最佳论文奖。

他的研究主要关注机器学习及其在科学、健康和可持续性方面的应用。

James Tompkin

James Tompkin是布朗大学助理教授,专注于计算机视觉、计算机图形学和人机交互领域。


参考资料:
https://x.com/iScienceLuvr/status/1877624087046140059
https://huggingface.co/papers/2501.05441
https://x.com/multimodalart/status/1877724335474987040
https://x.com/SkyLi0n/status/1877824423455072523