0. 这篇文章干了啥?
由于基于注意力的Transformer网络在图像识别任务中表现出色,从更深层次上理解和比较Transformer和卷积网络(CNNs)变得尤为重要。先前的工作已经揭示了CNN和Transformer之间有趣的差异,但许多问题仍未得到解答。Transformer是否拥有不同的内部工作机制?为什么一些Transformer似乎比CNNs更鲁棒?最近的工作,如ConvNeXt,利用了Transformer方法中的设计原则来设计基于深度卷积的网络,并取得了优异的结果。这是否意味着重要的贡献因素不是注意力本身,而是这些设计原则?如果是这样,哪些具体的设计原则特别影响网络的决策?更好地回答这些问题将帮助我们更深入地了解这些深邃而复杂的黑盒网络。
在本文中,我们提出了一种新颖的方法论,通过深度解释算法来考察这些问题。近年来,解释算法得到了显著的改进,可以生成准确的解释,这些解释可以通过对图像的干预实验进行验证。最近的基于搜索的解释算法可以找到一组全面的最小充分解释(MSEs),定义为最小的补丁集合,如果将这些补丁展示给网络,将导致几乎与从完整图像中获得的预测一样自信的预测。搜索算法生成的MSEs集合的全面性显著超越了传统的显著性图,后者只能为每个图像生成一个解释。
虽然每张图像的解释方法已经有了很大的改进,但它们仍然无法提供一种方法来全局理解不同网络架构的行为。在本文中,我们通过从每张图像的解释中提取摘要统计信息,然后将它们结合起来以获得数据集范围的统计信息来解决这个问题。通过这种方法,我们希望获得的见解不再是仅仅是偶然的,而是具有统计意义和可验证性的。在本文中,我们提出了两种方法。第一种是子解释计数,该方法通过从MSEs中删除图像块并检查在这些图像块子集上的预测条件概率与完整图像之间的似然比,来研究网络在部分证据上的表现。具有高似然比的图像块组合的数量表明了一种我们称之为组合性的行为,这意味着分类决策是基于多个局部图像块的联合构建的,移除一些图像块仅会降低置信度,但可能不会改变分类决策。
我们观察到不同架构在组合性方面存在显著差异:ConvNeXt和没有蒸馏的Transformer模型更具组合性,其子解释的数量明显多于常规CNN模型。进一步的研究表明,这种差异的最重要因素,令我们惊讶的是,不是卷积和注意力之间的选择,而是网络中使用的归一化机制。具体来说,我们发现CNN中常用的批量归一化导致网络的组合性显著下降,相比于Transformer中常用的层归一化。模型的感受野大小也对组合性有较小程度的影响。
CNN的行为可以被描述为更具析取性,这意味着网络可以从较少数量的补丁中自信地预测,尽管它可以识别几种不同的补丁组合中的任何一种。图1右下角展示了几个例子,其中一组几个揭示的局部补丁导致比完整图像更自信的预测,这反映了与组合网络截然不同的遮挡处理机制。我们还发现,常用的蒸馏机制,即使用CNN来训练Transformer,会导致Transformer变得不那么组合性,而更析取性,更类似于CNN。
为了解答不同网络是否使用相同类型的视觉特征进行分类的问题,我们开发了一种名为交叉测试的第二种方法。在交叉测试中,我们基于一个网络为图像计算一个解释(图像掩码),然后将掩码区域作为输入提交给第二个网络。这有助于我们理解对第一个网络贡献显著的区域是否对第二个网络也相关。如果两个模型依赖相似的视觉特征,那么它们在交叉测试中应该得分较高。另一方面,如果一个模型不对另一个模型认为重要的视觉特征做出响应,这意味着它们依赖的是不同的特征。通过这种方法,我们能够绘制不同卷积网络和Transformer的特征使用景观图,这表明不同的网络确实使用不同的特征——CNN、Transformer和ConvNeXt各自独立,尽管蒸馏可以使Transformer更接近CNN。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
作者:Mingqi Jiang, Saeed Khorram, Li Fuxin
机构:俄勒冈州立大学
原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf
2. 摘要
为了深入了解不同视觉识别主干网络的决策过程,我们提出了两种方法论,即子解释计数和交叉测试,这两种方法论可以在整个数据集上系统地应用深度解释算法,并通过比较解释的数量和性质生成的统计数据。这些方法揭示了网络在组合性和分离性这两个属性上的差异。我们发现,Transformer和ConvNeXt更具组合性,这意味着它们在做出决策时会综合考虑图像的多个部分,而传统的CNN和蒸馏后的Transformer则组合性较差,分离性更强,这意味着它们使用多个不同但更小的部分来实现自信的预测。通过进一步的实验,我们发现归一化的选择对模型的组合性尤为重要,因为批量归一化会降低组合性,而组和层归一化则会增强组合性。最后,我们还分析了不同主干网络共享的特征,并根据它们的特征使用相似性绘制了不同模型的格局图。
3. 效果展示
不同类别的模型表现出不同的行为。似然比是指从掩码图像和全图像中预测的目标类别的类别条件概率之间的比值。在组合性行为中,一个可靠的分类是由多个部分共同建立的,移除某些部分可能只会稍微降低似然比(如图右上角树中每个节点下方所示)。在析取性行为中,网络需要很少的部分就能获得高度自信的预测(有时比全图像更自信),但它可以依赖多个不同的组合来获得自信的预测,类似于不同合取之间的逻辑或(最好在彩色下查看)
4. 主要贡献
总结来说,我们的贡献如下:
• 我们提出了两种方法论,即子解释计数和交叉测试,这些方法系统地应用模型解释方法来检查图像识别网络的决策机制。
• 通过子解释计数,我们发现归一化层对模型行为有显著影响——批量归一化导致析取行为(使用较少补丁的更多组合),而层/组归一化导致更具组合性的行为(使用更多补丁的较少组合)。感受野大小也在较小程度上影响组合性。
• 通过交叉测试,我们能够绘制不同网络的特征使用景观图,并展示CNN、Transformer和ConvNeXt在分类时不使用相同的视觉特征,而在每个组内,模型之间更加相似。
5. 基本原理是啥?
最小充分解释(MSEs)和子解释的说明。MSEs是最小化掩码的图像,深度网络会将其识别为与完整图像相同的类别,其预测的类别条件概率至少为完整图像的90%。子解释被定义为MSE中补丁的一个子集(最佳以彩色查看)
在VGG-19和Swin-T之间对“蜂鸟”类别进行插入度量的交叉测试。(上)插入图像是通过连续展示被热图视为显著的像素点获得的;(下)当仅从其中一个分类器生成热图时,使用曲线下面积(AUC)来计算每个分类器的插入度量(最佳以彩色查看)
6. 实验结果
我们对不同的补丁组合执行宽度为5的波束搜索,将图像划分为7×7的网格,包含49个补丁。基线图像被设置为原始图像的模糊版本。在表1中,我们统计了不同网络中的MSE数量和子解释数量。
析取性与组合性
。表1显示了不同模型之间的显著差异。大多数CNN、ConvNeXt和蒸馏后的Transformer具有更高的MSE计数和更小的MSE大小。相反,Swin Transformer和其他未经蒸馏的Transformer具有更小的MSE计数和更大的MSE大小。这些差异在统计上是显著的。
回顾MSE的定义,较高的计数和较小的尺寸意味着网络需要较少的补丁组合来形成自信的分类。然而,网络对遮挡或缺失的视觉特征具有鲁棒性,因为如果某个重要特征不可见,它可以使用不同的组合。这就是我们定义的析取性。
相反,对于表现出较大MSE大小的Transformer模型,我们注意到子解释的数量也显著较高。这暗示了处理遮挡的组合机制:在每个补丁组合中,移除一些补丁只会略微降低分类置信度,而在CNN和蒸馏后的Transformer中,移除MSE中的一些补丁会大大降低分类置信度(导致更少的子解释)。显然,析取性和组合性是两种不同的机制,都可以处理遮挡和缺失的特征。
另一个结果是数据增强的效果:具有更好数据增强的新型CNN比旧型CNN具有更多的MSE,显示出更高的鲁棒性。需要说明的是,这些只是总体趋势,只有通过系统地评估大型数据集上的解释才能观察到。我们可以为特定图像使用这些推理策略中的任何一种来找到任何网络,并且在许多图像中,所有网络都使用类似的特征集,导致表1中它们之间的总体差异较小。这表明我们正在采用的关于解释方法的统计方法的重要性,因为它从单个图像的噪声信号中揭示了趋势。
是什么推动了ConvNeXt和Swin Transformers中大量的子解释呢?一个特别有趣的方面是,在没有蒸馏的ConvNeXt和Transformer中,子解释的数量明显更多。例如,在这些网络中,置信度大于或等于50%的子解释通常有数千个,而在经过蒸馏的CNN和Transformer中只有数百个。尤其是ConvNeXt,在我们的分析中显得与众不同,因为它似乎既具有更多的MSE计数和类似CNN的更小尺寸,又具有更多的子解释,从而具有组合性。因此,我们开始研究哪些设计方面具体推动了大量的子解释。
我们尝试逐一剔除ConvNeXT的设计元素,并对Swin Transformers进行了相同的实验。具体来说,我们使用3×3的卷积核大小对所有ConvNeXt模块进行训练,得到ConvNeXt-T,并在前两个阶段使用4x4的窗口大小训练Swin-T,将得到的模型分别命名为ConvNeXt-T-3和Swin-T-4。注意到结果并未能完全解释子解释的差异,我们将原始的层归一化(LN)替换为批量归一化(BN)和组归一化(GN),并使用不同的归一化和更小的感受野进一步训练模型:ConvNeXt-T-3-BN、ConvNeXt- T-3-GN、Swin-T-4-BN和Swin-T-4-GN。这些更改并未降低ImageNet上的性能。补充材料中提供了更多信息。
表2的结果令我们相当惊讶,因为我们没想到批量归一化会发挥如此重要的作用:减小感受野的大小会使子解释减少约40%,但是将层归一化更改为批量归一化会非常显著地减少子解释的数量,减少约80%,使ConvNeXt和Swin Transformer回到与CNN相似的水平。这表明,尽管感受野大小和归一化在组合性中都发挥了重要作用,但归一化的选择是一个更重要的因素。GN表现出与LN相似的组合行为,并且两者都与BN明显不同。
换句话说,使用BN会强烈地使网络变得不那么具有组合性,从这个意义上说,缺失的特征在合取中会更快地降低预测置信度。这使得特征之间的关系更像逻辑与/或运算,而不是线性求和。我们尝试通过检查这些方法的归一化维度来解释这一点。批量归一化仅在单个通道内进行归一化,而不会在不同的网络通道之间进行归一化,而组归一化(GN)和层归一化(LN)则在不同的通道间进行归一化。这可能会导致当网络使用批量归一化(BN)时,少数大的激活值主导预测结果。图5显示了不同网络中的激活图值,并且确实可以清晰地看到,与使用组归一化(GN)和层归一化(LN)相比,使用批量归一化(BN)时的顶部特征通道更加占主导地位。这种效果是网络训练过程中的一种偏好,并不意味着批量归一化(BN)和层归一化(LN)会导致根本不同的网络架构。表1表明,从卷积神经网络(CNN)中蒸馏可以减少经过层归一化(LN)处理的Transformer的子解释数量,从而降低其组合性。
在发现了这种影响后,一个悬而未决的问题是:这是好是坏?我们没有足够的具体证据来直接回答这个问题,但可以为组合性提供一些直观的论据——过度依赖少数局部特征的存在可能会降低对对抗性样本的鲁棒性。虽然析取性通过引入更多的合取来补偿,但平均每幅图像只增加了大约2个MSE。在不确定性下的校准也可能因为组合性而更容易,因为更容易生成“半确信”的预测。ConvNeXt和Swin Transformers通常在下游视觉任务(如检测和分割)上优于蒸馏后的ViT,在这些任务中,人们可能会认为查看更多特征很重要,而不仅仅是那些最具判别性的特征。此外,还可以更深入地研究批量归一化和组归一化的组合,如[43],这确实显示出了更好的对抗性准确性和领域适应能力,但最近在架构中几乎从未使用过。析取性的一个潜在论据可能是支持在遮挡下更一致的预测置信度,这在需要做出坚定决策而不考虑遮挡时可能很有用。
7. 总结 & 未来工作
在本文中,我们提出了两种新颖的方法论,即子解释计数和交叉测试,这些方法利用深度解释算法收集数据集范围的统计信息,以理解不同视觉识别骨干网的决策行为。我们的分析表明,不同类型的视觉识别模型在析取主义和组合性这两个概念轴上表现出截然不同的行为。在其他发现中,值得注意的一点是,归一化的选择强烈影响模型的组合性。此外,感受野大小和数据增强也被证明会影响模型的行为。通过交叉测试,我们描述了模型家族的特征使用景观。我们希望我们的研究见解能够帮助人们更好地理解深度视觉模型的决策机制,并激发对未来模型设计的思考。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。