专栏名称: 机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
目录
相关文章推荐
机器之心  ·  AI「视觉图灵」时代来了!字节OmniHum ... ·  15 小时前  
爱可可-爱生活  ·  【Claude和o3 ... ·  23 小时前  
宝玉xp  ·  转发微博-20250204101947 ·  昨天  
爱可可-爱生活  ·  【[74星]RapidUDF:高性能C++表 ... ·  3 天前  
51好读  ›  专栏  ›  机器学习研究组订阅

NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成

机器学习研究组订阅  · 公众号  · AI  · 2025-02-02 18:19

正文

论文一作为斯坦福大学计算机博士叶皓天,指导老师为斯坦福大学 Stefano Ermon 与 James Zou 教授。北京大学博士林昊苇、斯坦福大学博士韩家琦为共同第一作者。
近年来,扩散模型(Diffusion Models)已成为生成模型领域的研究前沿,它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而,生成符合特定条件(如标签、属性或能量分布)的样本,通常需要为每个目标训练专门的生成模型,这种方法不仅耗费资源,还严重制约了扩散模型作为未来基座模型实际应用潜力。
为了解决这一难题,斯坦福大学、北京大学、清华大学等机构的研究团队联合提出了一种全新的统一算法框架,名为无训练指导(Training-Free Guidance, 简称 TFG)。这一框架无缝整合现有的无训练指导方法,凭借理论创新和大规模实验验证,成为扩散模型条件生成领域的重要里程碑,目前已经被 NeurIPS 2024 接收为 Spotlight。
  • 论文标题:TFG: Unified Training-Free Guidance for Diffusion Models
  • 论文链接:https://arxiv.org/abs/2409.15761
  • 项目地址:https://github.com/YWolfeee/Training-Free-Guidance


问题背景:扩散模型的条件生成难题


扩散模型以其渐进降噪生成样本的特性,逐渐被广泛应用于从图像到视频到音频、从分子到 3D 结构等多领域。然而,条件生成的需求(如生成特定类别的图像或满足特定能量约束的分子结构)对模型提出了更高要求。
传统条件生成方法依赖 “基于分类器的指导”(classifier-guidance)或 “无分类器指导”(classifier-free)技术。这些方法通常需要为这一类事先确定的目标属性训练一个生成 + 预测模型或是带标签的生成模型。一旦训练完成,该模型就难以被运用到同一领域的其他条件生成任务中,因而难以推广至多目标或新目标场景。与之相比,无训练指导旨在利用现成的目标预测器(如预训练分类器、能量函数、损失函数等)直接为扩散模型生成提供指导,避免了额外的训练步骤。然而,现有无训练方法存在以下显著问题:
  • 缺乏系统性理论支持和设计指导;
  • 即使在简单任务中表现也不稳定,容易失败;
  • 难以高效选择适合的超参数。


TFG 框架的核心创新


1. 统一设计空间(unified design space)

TFG 提出了一个通用的无训练指导设计空间,将现有算法视为其特殊情况。这种统一视角不仅简化了对不同算法的比较,还通过扩展设计空间提升了性能。具体而言,TFG 基于多维超参数设计,涵盖了多种指导方法的变体,为任务适配提供了灵活性。

2. 高效超参数搜索策略(efficient searching strategy)

为了应对多目标、多样化任务场景,TFG 引入了一种高效的超参数搜索策略。在此框架下,用户无需复杂的调参过程,通过自动化策略即可快速确定最优超参数组合,适配多种下游任务。

3. 全面基准测试(comprehensive benchmark)

TFG 框架在 7 种扩散模型上开展了广泛的实验,包括图像、分子、音频等 16 项任务和 40 个具体目标。实验结果显示,TFG 平均性能提升 8.5%,在多个任务中均超越现有最佳方法。


方法概述:TFG 如何实现无训练指导?



实现 TFG 的核心是利用 Tweedie’s formula,通过预训练的扩散模型预测当前噪声样本对应的干净样本分布均值,再用判别器进行打分,将可微的分数进行反向传播,从而指导噪声样本的去噪过程。基于以上思路,TFG 提出了一个统一的算法框架,精细设计了四大关键机制来提升条件生成任务的表现:Mean Guidance、Variance Guidance、Implicit Dynamics 和 Recurrence。以下是各部分的详细介绍:

1. Mean Guidance(均值指导)

Mean Guidance 利用预测样本的均值梯度来引导生成过程,核心思想是对生成样本的目标属性进行直接优化。在每一步去噪过程中,模型会根据当前的预测样本  计算目标预测器(如分类器)的梯度。这些梯度被用于调整样本,使其逐渐向高目标密度区域移动。Mean guidance 的优点是简单直接,易于实现。但在目标空间的低概率区域中,梯度可能不稳定,导致生成的样本质量下降。为此,TFG 通过 recurrence(递归)和动态调整梯度强度来改进这一不足。

2. Variance Guidance(方差指导)

Variance Guidance 利用预测样本的方差信息,通过对梯度进行协方差调整,进一步优化生成方向。通过在噪声样本空间计算梯度,而非直接作用于预测样本 ,引入了更多高阶信息。根据梯度与样本协方差矩阵的相互作用,对样本生成方向进行动态调整。文章中证明了这种方法等价于对梯度进行了协方差加权,增强了生成过程中目标属性之间的协同作用。例如,正相关的目标特性会被相互加强,而负相关的特性会被弱化。

3. Implicit Dynamics(隐式动态)

隐式动态通过为目标预测器引入高斯核平滑,形成了一种渐进式的 “动态噪声引导”。在每一步生成中,对目标函数进行高斯平滑,逐步增加噪声,并通过噪声样本计算梯度。这种操作使得样本更容易跳出低概率区域,收敛至高目标密度区域。即使采用少量的采样样本,也能显著提升生成样本的多样性和精度。
4. Recurrence(递归机制)
递归机制通过重复应用前述指导步骤来逐步强化生成结果。每一步去噪的中间结果被不断 “回滚” 并重新生成,类似于一个动态优化的循环过程。每次递归的目的是修正前一轮生成的误差,同时引入更多的指导信息。在标准的标签指导任务(如 CIFAR10 和 ImageNet)中,递归次数的增加显著提升了样本准确率。例如,在 CIFAR10 数据集上,将递归次数从 1 增加到 4,准确率从 52% 提升到 77%,缩小了与基于训练的指导方法的性能差距。
本文从理论上证明,已有的一些无训练指导算法(例如 UGD,FreeDoM,MPGD,DPS,LGD)都是 TFG 的特例。TFG 构建了一个全面的超参数搜索空间,而已有的算法本质上都是在这个空间的某个子空间进行搜索。所以,TFG 将免训练指导算法设计的问题转化为:如何进行高效有效的超参数搜索?

设计空间的构建

TFG 框架的一个核心创新在于其设计空间(Design Space)的构建与超参数优化策略的提出。研究团队对这一问题进行了系统分析,并提出了一种高效的通用搜索方法,具体由以下几个超参数组成:

1. 时间相关向量: 包括 ρ(Variance Guidance 强度) 和 μ(Mean Guidance 强度),分别控制梯度的影响力度及其在每个时间步的分布。

2. 时间无关标量:

  •  :递归次数,决定了每个时间步的重复优化程度。
  •  :梯度计算迭代次数,用于控制 Mean Guidance 的渐进式优化。
  •  :用于 Implicit Dynamics 的高斯平滑参数。


这些参数的组合定义了 TFG 的设计空间 。研究表明,现有的无训练指导方法(如 DPS、FreeDoM、UGD 等)可以被视为该设计空间的特殊情况,这意味着 TFG 实现了对这些方法的统一与扩展。为了更好地分析和使用设计空间,研究团队提出了分解方法,将时间相关的向量(如 ρ 和 μ)分解为:



在设计空间中定义了三种结构:


1. Increase(递增结构): 如  ,权重随时间步逐渐增加。

2. Decrease(递减结构): 如  ,权重随时间步逐渐减小。

3. Constant(恒定结构): 权重在每个时间步均相同。


通过实验对比,研究团队发现:ρ 和 μ 的递增结构在多个任务中表现最佳,生成样本的准确率和质量显著提高;这一结果极大地简化了设计空间的优化过程,为不同任务选择合适的超参数提供了明确的指导。

高效超参数搜索策略

为了在广泛的任务中实现高效优化,研究团队设计了一种通用的超参数搜索策略,包括以下核心步骤:

1. 初始值设定: 从较小的初始超参数值开始(如 ρ =μ=0.25),模拟无条件生成的效果。





请到「今天看啥」查看全文