专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

ArXiv 2024 | 揭秘视觉表征学习中的骨干网络-优化器耦合偏好

我爱计算机视觉 · 公众号 · · 2024-10-16 11:12

正文

关注公众号，发现CV技术之美

本篇分享论文 Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning ，研究深入探讨了视觉领域中骨干网络与优化器之间的偏好关系，揭示了“骨干网络-优化器耦合偏好”（Backbone-Optimizer Coupling Bias, BOCB）的现象。

实验观察表明，VGG和ResNet等传统卷积神经网络（CNNs）较偏好SGD系列优化器；而以Vision Transformers（ViTs）和ConvNeXt为代表的现代化深度网络（Modern DNNs），更偏好AdamW为代表的自适应学习率优化器，且表现出很强的耦合性。

本研究构建了20个代表性骨干网络和20个优化器的BOCB基准，发现特定网络设计或优化器会导致BOCB现象，且可能显著影响视觉模型的预训练性能和下游任务泛化性。结合分析工具和具体案例分析，本研究总结了如何设计高性能且低优化器耦合的视觉骨干网络，并评估、推荐了几个通用优化器。

期望本研究能够激发社区对网络架构和优化器的默认配置和耦合性的质疑，兼顾网络架构的性能和通用性，以构建高效且鲁棒的视觉深度学习系统。

arXiv：https://arxiv.org/abs/2410.06373
HuggingFace: https://huggingface.co/papers/2410.06373
X: https://x.com/ZedongWangAI/status/1844221948508918207
Github: https://github.com/Black-Box-Optimization-Coupling-Bias/BOCB

1.引言

过去十年中，深度学习在各类计算机视觉任务上取得了显著突破，这主要归功于网络架构和优化器的快速发展。

尽管如此，现有研究往往默认使用固定优化器和超参数配置，很大程度上忽视了选用优化器所带来的影响，缺乏系统性的分析和论证。

本文旨在探索骨干网络结构和优化器之间的耦合关系，评估并探索这种关系对模型性能、模型参数特征和迁移性的影响和规律。

2.视觉骨干和优化器的发展路线

2.1 视觉骨干架构的分类

本文将近十年以来的视觉网络架构发展时间线和代表性宏观设计（Macro design）概括为下图：

阶段化宏观设计： 现有视觉骨干可分为层次结构化架构（如VGG、ResNet）和各向同性架构（如ViTs和MLP-Mixer）。

块内宏观设计： 网络块内结构（Block-wise）包含无残差的平网络块、带残差跳连的瓶颈模块、令牌混合（Token Mixer）与通道混合（Channel Mixer）拆分的元网络模块（MetaFormer block）等。早期CNNs采用的平网络块和瓶颈模块属于同质化块结构，内部不细分空间和通道的建模操作，而Transfomer为代表的现代化深度网络属于异质化块结构，结合残差和前归一化（Pre-normalization）结构分别做空间和通道建模。

2.2 主流梯度基优化器

本文将常见优化器归纳为包含4步的通用优化算法（如上图），并将常见的20种优化器归类如下：

固定学习率与动量： 以SGD为代表，该类别的优化器对所有参数使用固定学习率，通过动量梯度作为优化方向。

自适应学习率与动量： 以AdamW为代表，该类优化器结合了梯度的动量（Momentum）和逐参数自适应学习率的优势，采用估计的梯度二阶矩调节学习率。

估计学习率与动量： 以AdaBelief为代表，该类优化器在第二类优化器基础上，通过额外的约束或估计来改进第二类优化器的收敛速度和性能，通常应用于具体任务（例如图像生成或NLP任务）。

自适应学习率与原梯度： 以RMSProp为代表，该类优化器基于历史统计数据为每个参数估计适应学习率，但采用每个循环的原始梯度作为优化方向。

3.骨干网络-优化器耦合偏好（BOCB）

3.1 骨干网络和优化器的联合评估

通常认为，骨干网络和优化器应当具有通用性和独立性。若一个骨干网络非常依赖某种优化器，它会在使用该优化器时取得优异的性能，但根据没有免费午餐定律（No-Free Lunch Theroy），它大概率会在某些优化器上出现明显的性能退化，此时可认为该骨干网络与优化器存在强耦合偏好。

性能指标： 考虑图像分类任务，以验证集上top-1准确率评估每种骨干网络-优化器组合的性能。给定一个骨干网络在一组优化器上的实验结果，BOCB强的骨干网络通常存在少数比正常结果差很多的结果，可用以下方式筛选出此类结果：

其中为人为给定的阈值，基准数据集上模型性能的方差有关。如果某个结果到最优性能的差距比第一第三分位点的差距还大，说明该结果比该骨干网络的正常性能要差，说明骨干网络与优化器不适配。

超参数鲁棒性： 记录每个骨干网络-优化器组合的最优超参数。对于单个优化器而言，在某个数据集上应该存在一组默认超参数配置，通常为该数据集上各类模型超参数的众数。通过计算骨干网络-优化器组合的最优超参数与默认超参数配置的距离（距离越大则需要花费更多调参代价），可衡量该骨干网络-优化器组合的超参数鲁棒性。

参数模式和收敛质量： 选用四个指标来衡量所学到的参数空间质量和特征。分别对每层参数矩阵计算PL指数alpha、熵、L2范数和top-k PCA能量比率，对各层进行统计为全局直方图或逐层可视化的山脊图。

3.2 基准测试和观察

基准设置： 在CIFAR-100上对20个代表性视觉骨干和20个流行优化器进行主要基准测试。

观察： 发现某些流行模型（例如DeiT-S和ConvNeXt-T）与某些优化器（即SGD和LARS）的组合效果不佳，从而总结了BOCB现象。

4.BOCB的来源

4.1 骨干宏观设计和Token Mixers的起源

早期CNNs： 这些架构以简单的卷积层和池化层叠加设计为特点，最终通过全连接层完成特征的提取与分类。这种范式虽然有效，但为后续的优化景观变革奠定了基础。这些早期的CNNs通过直接的方法进行特征提取，但其优化潜力有限，需要更复杂的设计来进一步提升性能。

经典CNNs： ResNet的引入标志着向分阶段的层次结构设计的转变，显著增强了特征提取和表征学习能力。特别是ResNet-50，它展示了一种平衡的BOCB处理方式，与SGD优化器展现出强烈的兼容性，并相对于同期的其他架构有较低的BOCB。ResNet通过引入残差连接解决了深度网络训练中的梯度消失问题，这一创新不仅提升了网络的优化效率，也为深度学习模型的设计提供了新的思路。

现代架构： 向现代骨干网络的转变引入了简化的块状设计（例如，MetaNeXt和ConvNeXt变体）或复杂的Blo ck-wise异构结构（例如，MogaNet和UniRepLKNet），由于其复杂的特征提取机制，增加了优化挑战和BOCB的程度。作为演化的巅峰，MetaFormer架构将阶段化和Block-wise异构性融入其设计中。这种创新的宏观设计通过与优化器的协调，优化了优化景观，从而减少了BOCB并提升了性能。

以上主干网的演变强调了宏观设计在塑造优化环境中的关键作用，以及在主干网架构中持续创新的必要性。它强调了在提高表示能力和保持优化效率之间必须达到的微妙平衡。详情请参阅论文附录C。

接下来，我们举例说明了三个案例，展示了表征能力与BOCB效应的权衡。

Case 1 (Transformer): ViTs由于其自注意力机制和阶段性各向同性设计，缺乏CNNs中的局部连接和位移不变性等归纳偏好。

这需要精心的调整以确保在视觉任务中有效泛化并减少BOCB。MLP-Mixer通过用MLP替换基于注意力的Token Mixers来简化模型，从而简化了Token间的交互，使得训练过程更加稳定。

然而，这种简化牺牲了模型捕捉长距离依赖的能力，这对于特定的视觉任务是必不可少的，因此体现了“模型简洁”与表征能力之间的权衡。AttenFormer由于其MetaFormer框架，整合了平衡的设计和跨阶段的残差缩放，有效地减轻了BOCB。Swin-T与DeiT-S类似，基于Vallina Transformer，但引入了层次化阶段和局部注意力块。

这些设计增强了模型捕捉细粒度特征的能力，与DeiT-S相比，实现了更好的性能和更弱的BOCB。关键收获：针对减少异质性或增强同质性的块状宏观设计，结合层次化阶段和Token Mixers内整合的归纳偏好，对于ViTs在计算机视觉任务中减轻BOCB至关重要。

Case 2 (CNNs): 受ViTs成功的启发，ConvNeXt引入了一种同质化块设计，在残差连接中整合了两种类型的混合器，可能增强了在各种任务和数据尺度上的优化。

这种架构的有效性强调了需要在优化和现实世界挑战的背景下，超越常见指标来评估网络设计的必要性。网络骨干与优化器之间的相互作用对于预训练和微调都至关重要，不同的架构影响着优化景观。

CNNs中的BOCB通常与FFN设计相关，这在ConvNeXt等模型中至关重要。这些块作为点卷积或倒置瓶颈层实现，如果没有适当的正则化，容易过拟合。

ConvNeXt.V2在FFN块中引入了全局响应归一化（GRN），类似于RMSNorm，以稳定训练并防止模型崩溃，从而减少BOCB。基于MetaFormer框架的ConvFormer使用带有深度卷积和点卷积的同质化块，提高了训练的鲁棒性并降低了BOCB风险。

同样，VGG系列因其简单和同质化的架构表现出良好的训练动态，RepVGG引入的训练阶段残差连接增强了性能，同时保持了稳定性并避免了BOCB。

相比之下，ConvNeXt.V1和Moganet由于其复杂操作和异构块，更容易受到BOCB的影响。UniRepLKNet通过更同质化的设计规避了这一问题，突显了架构同构性在减少BOCB中的重要性。对于现代CNNs，促进同质化构建块结构的设计，并结合精心设计的策略来减轻模型故障，更有可能实现稳定的FFN训练并降低BOCB风险。

Case 3 (MetaFormer): MetaFormer架构以其分层次的阶段性和块状设计而著称，特点是ResScale，这有助于灵活集成各种Token Mixers。

这种宏观设计对于在最小化BOCB风险的同时实现竞争力性能至关重要。IdentityFormer，凭借其基本的Token Mixer，为MetaFormer设定了一个稳健的baseline，但在需要Token Mixer表示的复杂任务中可能会有所不足，潜在地增加了BOCB风险。

PoolFormerV2（将池化作为Token Mixer）的表现超过了IdentityFormer，但由于缺乏自注意力的细微差别，可能会忽略关键细节，导致更高的BOCB敏感性。为了增强MetaFormer并减轻这些风险，选择适当的Token Mixer是必不可少的。

ConvFormer将CNN层集成到Transformer框架中，平衡了局部归纳偏好和全局感受野，以防止数据受限场景中的注意力崩溃，确保更好的收敛并减少BOCB。AttenFormer和CAFormer进一步探索了注意力机制，旨在通过改进的Token交互来增强MetaFormer的表征能力。

总体而言，MetaFormer架构的成功取决于其层次化设计与Token Mixers选择之间的平衡，确保在多样化任务中提供稳健的性能，同时减轻BOCB的风险。