深度模型融合：综述

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-15 03:13

正文

23年9月国防科大、京东和北理工的论文“Deep Model Fusion: A Survey”。

深度模型融合/合并是一种新兴技术，它将多个深度学习模型的参数或预测合并为一个模型。它结合了不同模型的能力来弥补单个模型的偏差和错误，以获得更好的性能。然而，大规模深度学习模型（例如LLM和基础模型）上的深度模型融合面临着一些挑战，包括高计算成本、高维参数空间、不同异构模型之间的干扰等。本文将现有的深度模型融合方法分为四类：（1）“模式连接”，通过一条损失减少的路径将权重空间中的解连接起来，以获得更好的模型融合初始化；（2）“对齐”，匹配神经网络之间的单元，为融合创造更好的条件；(3)“权重平均”是一种经典的模型融合方法，将多个模型的权重进行平均，以获得更接近最优解、更准确的结果。（4）“集成学习”结合了不同模型的输出，这是提高最终模型准确性和鲁棒性的基础技术。此外，分析深度模型融合面临的挑战，并提出了未来模型融合可能的研究方向。

由于数据隐私和实际资源节省问题，深度模型融合引起了越来越多的兴趣。尽管深度模型融合的发展带来了许多技术突破，但也产生了一系列挑战，例如计算负载高、模型异构性以及组合优化对齐速度慢等[133, 204]，让一些方法在具体的场景受到限制[227, 254]，这激发了科学家研究不同情况下模型融合的原理。

不过，有些工作只关注单一视角（例如特征融合等）[45, 195]和特定场景[213]的模型融合，或者不同方式的信息融合（多模态融合[1, 103] ]）而不是参数的融合。加上最近的进展和代表性应用，例如联邦学习（FL）[160]和微调[29]等，本文根据内部机制和目的分为四类，如图所示整个模型融合流程示意图，以及各种方法的分类和连接。

对于独立训练且彼此不相邻的模型，“模式连接”和“对齐”使解决方案更加接近，从而以获得更好的平均原始条件。对于权值空间存在一定差异的相似模型，“权重平均（WA）”倾向于直接对模型进行平均，在损失函数值较低的参数空间区域中获得更接近最优点的解 [118]。此外，对于现有模型的预测，“集成学习”整合了模型的不同形式的预测，以获得更好的结果。

为了确定训练网络的结果对于 SGD 噪声是否稳定，损失屏障（误差屏障）被定义为两点损失线性插值与两点线性连接损失之间的最大差[50]。损失屏障说明，沿着 W1 和 W2 之间的路径优化图 [56, 61] ，误差是恒定的还是增加的。如果两个网络之间存在一条隧道，其屏障约等于0，则相当于模式连接[46,59,60]。也就是说，SGD得到的局部极小值可以通过一条最大损失最小化的路径 φ 连接起来。

基于梯度的优化得到的解可以在权重空间中通过没有屏障的路径（连接器）连接起来，这被称为模式连接 [46, 50]。可以沿着低损失路径获得更适合模型融合的其他模型。根据路径的数学形式和连接器所在的空间，分为三个部分“线性模式连接（LMC）[66]”、“非线性模式连接”和“子空间的模式连接” ”。

模式连接可以解决训练过程中的局部优化问题。模式连接路径的几何关系 [61, 162] 也可用于加速随机梯度下降 (SGD) 等优化过程的收敛性、稳定性和准确性。总之，模式连接为解释和理解模型融合的行为提供了新的视角[66]。但计算复杂度和参数调整的困难应该得到解决，特别是在大型数据集上训练模型时。下表是线性模式连接（LMC）和非线性模式连接的标准训练流程总结。

由于来自不同网络的通道和组件的随机性，网络的活动组件相互干扰[204]。因此，未对齐的加权平均值可能会忽略不同模型中单位之间的对应关系并损坏有用信息。例如，不同模型中的两个神经元之间存在一种关系，它们可能完全不同但功能相似。对齐是将不同模型的单元进行匹配，从而为深度模型融合获得更好的初始条件。其目的是使多个模型的差异更小，从而增强深度模型融合效果。此外，对齐本质上可以被视为组合优化问题。一种代表性机制“Re-basin”，它为各个流域提供解决方案，合并具有更好原始条件的模型。根据对齐目标是否是数据驱动的，对齐分为“激活匹配”和“权重匹配”两种类型，如表所示。

这些不变性带来的排列对称性有助于更好地理解损失图的结构 [22, 66]。不变性也可以被视为损失图中鞍点的来源[14]。[68]研究神经网络中对称性的代数结构以及这种结构如何在损失图几何中表现出来。 [14]在高维平台引入排列点，在该点可以交换神经元，而不会增加损失或参数跳跃。对损失进行梯度下降，调整神经元m和n的参数向量θm和θn，直到向量到达排列点。

基于排列对称性，权空间中不同区域的解可以生成等价解。等效解位于与原始解相同的区域，具有低损失屏障（盆地），称为“ Re-basin ”[3]。与模式连接相比，Re-basin倾向于通过排列而不是低损失隧道的方式将点传输到盆地中。目前，对齐是Re-basin的代表性方法[3, 178]。然而，如何高效地搜索排列对称性的所有可能性，使得所有解都指向同一个盆地是当前的挑战。

如图是【14】引入排列点交换神经元的示意图。左：一般对齐过程，模型A参考模型B转化为模型Ap，然后Ap和B的线性组合产生C。右：调整不同隐藏层两个神经元的参数向量θm和θn接近排列点，在排列点[14]θ′m = θ′n，两个神经元计算相同的函数，这意味着两个神经元可以交换。

综上所述，对齐可以提高不同模型之间的一致性和整体效果。随着DL应用场景的多样化，对齐将成为优化深度模型融合、提高泛化能力的关键方法之一。未来，对齐可以在迁移学习、域自适应[63]、知识蒸馏等领域发挥作用。例如，对齐可以减少迁移学习中源域和目标域之间的差异，提高对新域的学习。

由于神经网络参数的高度冗余，不同神经网络的权值之间通常不存在一一对应的关系。因此，通常不能保证权重平均（WA）在默认情况下表现良好。对于权重差异较大的训练网络，普通平均值表现不佳[204]。从统计的角度来看，WA允许控制模型中的各个模型参数，从而减少最终模型的方差，从而对正则化属性和输出结果产生可靠的影响[77, 166]。

下表是WA的代表性方法：

如图不同SWA相关方法的采样和学习率安排比较。(a) SWA：恒定学习率。(b)SWA：周期性学习率。(c)SWAD：密集采样。(d)HWA：利用在线和离线WA，以不同的同步周期采样，滑动窗口长度为h。

WA 通过平均不同深度模型的权重来获得最终模型，无需额外的计算复杂性或训练过程[109, 159]。一般来说，如果随机模型在表示能力、结构或训练数据方面存在显着差异，则融合的结果可能无法达到预期的性能。使用相同的超参配置但具有不同的数据顺序从头开始对模型进行线性插值甚至不如随机模型有效[59]。因此，大量提出的方法旨在以其他数学方式优化 WA 过程。

此外，当模型共享其优化轨迹的一部分（例如，检查点平均、尾部平均、SWA [99, 149] 等）或在相同的预训练模型上进行微调时（例如，模型汤 [239] 等），插值模型的准确性表现更好[167]。此外，模型汤[239]对具有不同超参配置的模型进行平均以获得最终结果。此外，在模型平均值中选择适当的权重也可能是一个挑战，这通常充满主观性。更复杂的权重选择机制可能需要大量复杂的试验和交叉验证。

WA是深度学习中一种很有前景的技术，未来可以作为模型优化技术，减少不同迭代之间的权值波动，提高稳定性和收敛速度。WA可以改进联邦学习（FL）的聚合阶段，以更好地保护隐私并降低未来的通信成本。此外，通过在终端设备上实施网络压缩，有望减少模型在资源受限设备上的存储空间和计算开销[250]。简而言之，WA是一种有前途且具有成本效益的DL技术，可以应用于FL等领域，以提高性能并减少存储开销。

集成学习，或多分类器系统，是一种集成多个单一模型来生成最终预测的技术，包括投票、平均[195]等。它提高了整体性能并减少了模型的方差，解决了诸如过拟合、不稳定，数据量有限。

基于现有的预训练源模型，模型重用 [266]提供了应用于新任务所需的模型，而无需从头开始重新训练新模型。它可以节省时间和计算资源，并在资源有限的情况下提供更好的性能[249]。另外，由于迁移学习的重点是解决目标域上的预测任务，因此模型重用可以视为迁移学习的一种。但迁移学习需要源域和目标域的标记数据，而在模型重用中，只能收集未标记的数据，而不能使用源域的数据[153]。

与多分类器集成学习不同，大多数当前方法重用现有的特征、标签或模态来获得最终预测[176, 266]，而不存储大量训练数据[245]。模型重用的另一个关键挑战是从一组针对给定学习任务的预训练模型中识别有用的模型。

使用单一模型进行模型重用会产生过多的同质信息（例如，在一个域训练的模型可能不适合另一域的数据），并且很难找到完全适合目标域的单一预训练模型。一般来说，用一组相似的模型来产生比单个模型更好的性能，这被表示为多模型重用（MMR） [153]。

下表比较不同复用方法的特点，简而言之，模型复用可以显着减少使用预训练模型所需的数据量，解决不同端之间传输数据时消耗大量带宽的问题。多模型复用也有广泛的应用，例如语音识别、安全隐私交互系统、数字视网膜[64]等。

由于集成学习框架的多样性，可以实现模型多样性并增强泛化能力。将来，这对于处理数据变化和对抗性攻击非常重要。深度学习中的集成学习有望为模型预测提供置信度估计和不确定性测量，这对于决策支持系统、自动驾驶[74]、医疗诊断等的安全性和可靠性至关重要。

近年来，深度模型融合领域出现了大量的新研究，也推动了相关应用领域的发展。

联邦学习

深度模型融合：综述

正文

请到「今天看啥」查看全文