主要观点总结
本文介绍了论文“Denoising Vision Transformers”的内容,该论文研究了视觉变换器(ViTs)中的一个关键问题:模型特征图表现出网格状伪影。作者提出了一个两阶段的去噪方法,称为去噪视觉变换器(DVT),通过提出定制的噪声模型和基于神经场的去噪技术,有效地去除ViT特征中的噪声伪影。文章还介绍了方法的关键点,包括分解ViT输出、基于神经场的每个图像去噪和可推广的去噪器。
关键观点总结
关键观点1: 论文创新点
识别并强调ViT特征中的噪声伪影;提出定制的噪声模型和基于神经场的去噪技术;开发灵活高效的去噪器,可以无缝集成到预训练ViTs中,无需广泛的重新训练,即可实现实时应用。
关键观点2: 方法流程
首先分析ViT输出以激发去噪方法;然后介绍每个图像去噪方法,该方法可以去除伪影并产生无噪声特征;最后,解释如何使用无噪声特征作为伪标签来训练一个可推广的去噪器。
关键观点3: 实验评估
在多种代表性ViTs上评估去噪方法,证明其在多个数据集上的语义和几何任务中一致地提高了现有最先进的通用模型。
正文
论文信息
题目:Denoising Vision Transformers
去噪视觉Transformer
作者:Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas J. Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglong Tian, Yue Wang
源码:https://jiawei-yang.github.io/DenoisingViT/
论文创新点
-
识别并强调ViT特征中的噪声伪影
:作者首次提供了对ViT特征中普遍存在的噪声伪影的分析,并指出位置嵌入是这些伪影的一个关键因素。
-
提出定制的噪声模型和基于神经场的去噪技术
:文章中提出了一个为ViT定制的噪声模型,并结合神经场去噪技术,有效地隔离并去除ViT特征中的噪声伪影。
-
开发灵活高效的去噪器
:作者开发了一个可以无缝集成到预训练ViTs中的灵活高效的去噪器,无需广泛的重新训练,即可实现实时应用。
摘要
作者研究了视觉变换器(ViTs)中一个关键但常被忽视的问题:这些模型的特征图表现出网格状伪影,这影响了ViTs在下游密集预测任务(如语义分割、深度预测和目标发现)中的表现。我们追溯到输入阶段的位置嵌入是导致这一问题的原因。为了减轻这个问题,我们提出了一个两阶段的去噪方法,称为去噪视觉变换器(DVT)。在第一阶段,我们通过在每个图像的基础上实施跨视图特征一致性来分离干净特征和被位置伪影污染的特征。这个每个图像的优化过程从原始ViT输出中提取无伪影特征,为离线应用提供干净的特征估计。在第二阶段,我们训练一个轻量级变换器块来从原始ViT输出中预测干净特征,利用得出的干净特征估计作为监督。我们的方法,DVT,不需要重新训练现有的预训练ViTs,并且可以立即应用于任何视觉变换器架构。我们在多种代表性ViTs(DINO、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估我们的方法,并证明DVT在多个数据集上的语义和几何任务中一致性地提高了现有最先进的通用模型(图1,右,表2至4)。我们希望我们的研究能鼓励对ViT设计重新评估,特别是关于位置嵌入的简单使用。
4 去噪视觉变换器
在本节中,我们首先分析ViT输出以激发我们的方法(§4.1)。然后,我们介绍了我们的每个图像去噪方法,该方法可以去除伪影并产生无噪声特征(§4.2)。最后,我们解释了如何使用无噪声特征作为伪标签来训练一个可推广的去噪器(§4.3)。我们的方法流程图如图4所示。
4.1 分解ViT输出
我们的方法基于这样一个原则:理想的视觉特征应该是本质上的平移和反射不变性,即,无论观察窗口、大小和方向如何变化,对象的特征应该保持一致。然而,如方程(1)至(4)和图3-(b)所示,ViTs将补丁嵌入与位置嵌入混合,从而破坏了视觉特征的变换不变性。这种破坏不变性可能不会立即显得有问题,但我们的调查如图3-(a)和(c)所示,揭示了包含位置嵌入与ViT输出中出现不良伪影之间的明显相关性。特别是,图3-(c)的中间行显示,这些伪影在不同图像中的变化很小,突出了它们与输入内容无关的一致性。这些观察激发了我们将ViT输出分解为三个术语:(1)输入依赖的、无噪声的语义术语
;(2)输入独立的伪影术语与空间位置相关的
;(3)以及一个残差项,考虑语义和位置之间的相互依赖
。分解正式表达为:
L_{recon} = L_{distance} + \alpha L_{residual} + \beta L_{sparsity} \quad (6)
$
L_{residual} = |sg(\hat{y}) - \hat{y}' - \Delta|^2, \quad L_{sparsity} = |\Delta|
1 \quad (8)
y = sg(ViT(t(x)))
\hat{y} = \hat{y}' + sg(\Delta)
\hat{y}' = F
\theta(coords(t(x))) + G_\xi
\Delta = h_\psi(y)
\cos(\cdot, \cdot)
sg(\cdot)
t(\cdot)
T
\theta, \xi, \psi
\Delta
\hat{y}'
\hat{y} = F_\theta(coords(t(x))) + G_\xi + sg(h_\psi(ViT(t(x))))
f, g, h$。
优化。我们将我们的优化过程分为两个阶段,每个阶段跨越总训练迭代次数的一半。在第一阶段,我们仅使用
训练
和
,让它们捕获ViT输出的大部分。在完成一半的优化迭代后,我们冻结
并继续训练
和
使用
进行剩余迭代。