一个很有意思的题目~
0. 论文信息
标题:[MASK] is All You Need
作者:Vincent Tao Hu, Björn Ommer
机构:CompVis @ LMU Munich, MCML
原文链接:https://arxiv.org/abs/2412.06787
代码链接:https://compvis.github.io/mask/
1. 导读
在生成模型中,两种范式在各种应用中获得了吸引力:基于下一组预测的掩蔽生成模型和基于下一噪声预测的非自回归模型,例如扩散模型。在这项工作中,我们建议使用离散状态模型来连接它们,并探索它们在视觉领域的可扩展性。首先,我们在一个统一的设计空间中以可扩展的方式对两种类型的模型进行逐步分析,包括时间步长无关性、噪声时间表、温度、制导强度等。第二,我们将典型的鉴别任务,例如图像分割,作为一个从离散状态模型上的[屏蔽]表征中去屏蔽的过程。这使我们能够执行各种采样过程,包括灵活的条件采样,只需训练一次来模拟联合分布。所有上述探索导致我们的框架命名为离散插值,这使我们能够在各种基准中实现与以前基于离散状态的方法相比的最先进或有竞争力的性能,如ImageNet256、MS COCO和视频数据集FaceForensics。总之,通过在离散状态模型中利用[MASK],我们可以将掩蔽的生成和非自回归扩散模型,以及生成和判别任务联系起来。
2. 引言
离散标记因其与大型语言模型(LLMs)的兼容性和紧凑性而备受关注。基于此,像MaskGiT这样的掩码生成模型[已提出在视觉领域根据特定启发式设计规则逐步解掩码。非自回归模型,例如扩散模型——尤其是连续扩散模型——由于在分数预测、条件合成、似然估计和图像反转方面的有效性,对生成领域做出了重大贡献。随着研究从连续状态扩散模型向离散状态扩散模型发展,扩散模型与掩码生成模型在训练和采样方面的相似性日益显著。然而,在视觉领域,对它们共享的设计空间和理论基础进行全面分析的研究仍明显缺失。
为了填补这一空白,我们探索了一个基于离散流匹配的框架——离散插值,该框架通过考虑离散状态数据,提供了灵活的噪声调度,并能推广到其他方法。虽然这项工作最初聚焦于语言建模,并仅探索了小规模的CIFAR10视觉数据集,但我们将该框架扩展到了大规模的真实数据集。我们研究了传统的显式时间步长扩散模型(明确依赖于时间步长),以及更灵活的隐式时间步长扩散模型(完全消除了对时间步长的依赖)。此外,我们还遵循掩码生成模型的方法,利用我们的框架验证了采样行为。这一综合研究加深了我们对掩码生成模型与扩散模型之间联系的理解。
另一方面,存在一种将判别任务和生成任务统一起来的趋势。在这项工作中,我们展示了如何将图像分割任务重新定义为我们的离散插值框架中的解掩码过程。例如,给定图像及其分割掩码对,通过仅进行一次联合训练以在离散状态下建模联合分布,我们可以使我们的框架适应各种判别和生成任务,如图像条件语义分割、分割掩码条件图像生成等。
3. 效果展示
生成任务一定需要Mask?
argmax的搅动采样可以1)减轻调度器之间的不对准。2)提高低NFE下的采样性能。首先,当使用与训练期间使用的线性调度器不同的调度器κt进行采样时,我们将变化的渐进链可视化。我们的采样过程使用50个步骤,CFG等级为3。其次,我们证明了对logits应用argmax操作可以显著减少采样后剩余[MASK]标记的出现。
4. 主要贡献
我们的贡献包括:
• 我们从离散流匹配理论中抽象并概念化了各种调度器,总结和推广了我们的框架,将不同的耦合和条件方法作为特例纳入其中。我们利用从显式时间步长模型到隐式时间步长模型的逐步泛化,使扩散模型与掩码生成模型之间的联系更加紧密。
推荐课程:
聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等
。
• 我们对扩散模型与掩码生成模型之间的统一设计空间进行了深入分析,为未来的研究提供了有价值的见解。此外,我们还提出,可以将稠密像素预测重新定义为解掩码过程。此外,我们还展示了在Cityscapes数据集上进行联合多模态训练后,对条件生成的综合分析。
• 最重要的是,通过整合所有以前的设计,我们在MS-COCO数据集上取得了最先进的性能,并在ImageNet 256和视频数据集Face Forensics上与同类离散状态模型相比取得了有竞争力的结果。
5. 方法
训练与采样的离散插值:在训练期间,我们首先根据特定的调度器κt从x0和x1获得离散插值xt。然后,我们使用交叉熵损失训练模型,以用˜p1|t(xt, t; θ)预测原始数据,其中t表示我们的时间步长t是可选的,这导致了显式时间步长和隐式时间步长模型。对于采样,我们从完全掩码的x0开始,逐步解掩码,最终得到完全未掩码的x1。最后,我们将索引解码回像素空间。
6. 实验结果
图像生成。我们在COCO数据集上展示了实验结果,如表2所示。与连续状态和离散状态模型相比,我们的方法达到了最先进的性能水平。值得注意的是,显式时间步长模型和隐式时间步长模型的性能表现相似。
我们在表3中进一步展示了在ImageNet256上的性能。与其他传统的自回归和基于掩码图像模型的方法相比,我们的方法获得了具有竞争力的FID分数。
扩散链的详细信息见图4。对于图像生成,我们始终采用带权重w(t) = 1的掩码交叉熵。从经验上看,我们发现与使用ELBO推导出的权重w(t) = κ˙ t^(1−κt) 相比,使用w(t) = 1可以获得更优的性能。此外,我们还发现,如果不使用任何掩码而直接使用交叉熵,会导致过拟合问题。更多详细信息请参阅附录。
调度器的影响。从图3a、3d和3g中,我们观察到,随着允许更多的NFE(函数评估次数),模型的最优FID收敛到大致相同的值。然而,使用训练调度器(线性)进行采样可以获得更好的性能。这表明不同的调度器之间确实存在不匹配。
Softmax温度。如图3b、3e和3h所示,softmax温度的概念源自掩码生成模型。我们观察到,softmax温度在0.8左右有一个最佳点,有趣的是,这一点在选择调度器或时间步长依赖性是隐式还是显式时都保持一致。对于MGM风格的采样,温度的最佳点约为1.2,在实现Gumbel噪声后变得更加明显。
无分类器指导(CFG)的强度。我们还在图3c、3f和3i中研究了无分类器指导强度的影响。有趣的是,最优的指导强度在不同的调度器和时间步长属性(隐式或显式)下都保持一致。对于MGM风格的采样,我们观察到最优点移动到大约3的位置,实现Gumbel噪声可以获得更优的性能。
7. 总结 & 未来工作
通过argmax进行最后一步采样的细化。为了探索样本与目标分布的接近程度,我们研究了一种称为argmax的技术。这种方法涉及在逻辑空间上直接使用argmax操作,而不是进行类别采样,从而用极其严格的狄拉克分布有效地细化采样过程。如图3a和3d所示,这种技术显著提高了在低NFE(函数评估次数)下的采样性能。
我们的工作“随机插值”将离散流匹配理论扩展到视觉任务,从显式时间步长模型推广到隐式时间步长模型。我们分析了扩散模型和掩码生成模型的交集,提出将密集像素预测作为解掩过程。通过整合这些元素,我们在MS-COCO上取得了最先进的性能,在ImageNet 256上获得了具有竞争力的结果,并证明了在法证学等视频数据集上的可扩展性。
对于未来的工作,大多数基于掩码的方法一旦解掩就无法重新掩码,这会导致不可逆的去噪错误。CDCD[16]解决了这个问题,而[50]提出了将过程解耦的方法。我们的方法可能可以扩展到这些方法,使用离散随机插值来解决这一限制。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球