预训练和微调可以增强视觉任务中的迁移效率和性能。最近的增量调优(delta-tuning)方法为视觉分类任务提供了更多选择。
尽管取得了成功,但现有的视觉增量调优方法未能在目标检测和分割等具有挑战性的任务上突破全参数微调的上限。
为了找到一种能够与全参数微调相媲美的替代方案,清华大学在IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025会议 在线发表题为
“5%>100%:BreakingPerformance Shackles of Full Fine-Tuning on Visual Recognition Tasks”
的研究论文。
该研究提出了多认知视觉适配器(Mona)调优,这是一种新颖的基于适配器的调优方法。首先,在适配器中引入了多个视觉友好的滤波
器,以增强其处理视觉信号的能力,而以往的方法主要依赖于语言友好的线性滤波器。其次,在适配器中增加了缩放归一化层,以调节输入特征的分布,使其更适合视觉滤波器。
为了充分展示Mona的实用性和泛化能力,在多个具有代表性的视觉任务上进行了实验,包括在COCO数据集上的实例分割、在ADE20K数据集上的语义分割、在Pascal VOC数据集上的目标检测、在DOTA/STAR数据集上的定向目标检测,以及在三个常见数据集上的图像分类。令人兴奋的结果表明,Mona在所有这些任务上都超过了全参数微调,并且是唯一一种在上述各种任务上超越全参数微调的增量调优方法。例如,在COCO数据集上,Mona相比全参数微调实现了1%的性能提升。综合结果表明,与全参数微调相比,Mona调优更适合保留和利用预训练模型的能力。
02、
匠心独运
由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。
预训练与微调范式(Pre-training & Fine-tuning)能够在同模态任务之间实现令人印象深刻的迁移学习,这一点已在计算机视觉(CV)和自然语言处理(NLP)中得到验证。预训练模型通常由资源充足且经验丰富的团队使用大量干净数据进行训练。卓越的预训练模型能够帮助硬件和数据受限的团队节省大量训练成本,并在新任务上训练出表现良好的深度模型。然而,在大模型时代,微调预训练模型的效率成为了一个重要问题。
全面微调(Full Fine-tuning)已在CV任务中广泛应用并取得巨大成功,该过程在训练期间同时调整预训练主干网络中的所有参数以及额外的特定任务头/颈部。尽管如此,全面微调是否仍然是视觉任务的最佳微调方式仍值得探讨。除了全面微调,增量调优(Delta Tuning)近年来在NLP和CV任务中受到关注。增量调优通过仅调整部分主干网络或额外的轻量级结构来实现高效的迁移学习。然而,现有的增量调优方法在视觉识别任务(如语义分割和实例分割)上仍未能超越全面微调。
为了挑战全面微调在CV中的主导地位,研究者提出了多认知视觉适配器(Mona)调优,这是一种基于适配器的新型调优方法。Mona调优通过引入视觉友好的卷积滤波器优化传统的线性适配器,并通过多认知视角提升视觉预训练知识的迁移效率。实验结果表明,Mona调优在多个视觉任务(包括图像分类、目标检测、语义分割、实例分割和定向目标检测)上均超越了全面微调。例如,在COCO数据集上,Mona调优相比全面微调实现了1%的性能提升。这表明,全面微调可能不再是视觉任务的最佳选择。Mona调优的主要贡献包括:证明了基于适配器的调优可以在视觉任务中超越全面微调,并且在引入更少新参数的情况下实现更好的性能。提出了一种基于多认知视觉适配器的新型训练范式Mona-tuning。在多个代表性视觉任务上验证了Mona-tuning的优越性。
图1:作者的方法与全参数微调以及最近的增量调优技术在代表性视觉任务上的比较。
蓝色虚线表示在ADE20K和COCO数据集上全参数微调的性能。提出的Mona方法在代表性视觉任务上超越了全参数微调,提升了以往增量调优技术的上限。结果表明,适配器调优范式可以取代全参数微调,并在常见的视觉任务中实现更好的性能。
全参数微调可能不再是在未来迁移学习中唯一首选的解决方案。
图2:左侧:提出的Mo
na调优方法。右侧:Mona的细节。
在每个Swin Block的MSA(多头自注意力模块)和MLP(多层感知机)之后添加了Mona。
该方法固定了预训练层的参数,并更新Mona的参数。右侧:Mona的细节。Mona在下投影(downprojection)之前有一个缩放的LayerNorm。下投影之后是一个多认知卷积滤波器组和一个聚合滤波器。在Mona内部的四个位置添加了跳跃连接(skip-connections),以增强其适应能力。Mona使得基于适配器的微调范式能够在典型视觉任务中全面超越全参数微调。