专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
云南市场监管  ·  一次性筷子都是用二氧化硫漂白的?!还能用吗? ·  12 小时前  
烂板套利  ·  人形机器人,具有唯一性的7家公司 ·  16 小时前  
烂板套利  ·  人形机器人,具有唯一性的7家公司 ·  16 小时前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

合并语言模型的权重实现无数据知识融合

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-11 05:50

正文

23年12月USC和Bloomberg公司的论文“Dataless knowledge fusion by merging weights of language models”。

微调预训练语言模型已成为构建下游 NLP 模型的流行范例。通常,经过微调的模型很容易获得,但由于数据隐私或知识产权问题,其训练数据却很难获得。这为融合各个模型之间的知识产生更好的单一模型造成了障碍。本文研究合并基于不同训练数据集的模型问题,获得在所有数据集域中都表现良好、并且可以泛化域外数据的单一模型。它是一种无数据知识融合方法,该方法在参数空间中合并模型,并以权重为指导,最小化合并模型与单个模型之间的预测差异。该方法是多任务学习的一种有前途的替代,可以在不访问训练数据的情况下保留或有时改进单个模型。最后,模型合并更高效地训练多任务模型,从而适用于更广泛的场景。


模型合并被定义为在参数空间中将多个模型合并为一个模型,而无需访问数据(Matena & Raffel,2021)。该技术提供了一种在满足数据隐私约束的同时构建单一模型的替代。权重合并算法通常也有一个封闭形式的解决方案,这使得它们非常有效,因为不需要重新训练,因此即使在有大量数据集或模型组合可用时也可以使用。合并可以被视为模型集成的替代(Opitz & Maclin,1999;Rokach,2010),其中单个模型的输出组合以产生最终预测。模型合并算法是联邦学习的关键步骤(McMahan et al., 2017; Lin et al., 2022),其中多个智体使用私有数据训练自己的模型,并仅与其他模型共享模型更新。然而,在联邦学习中,模型合并发生在多轮更新中,之后将合并的模型广播给所有智体,然后再使用私有数据进行下一轮训练。因此,这种无数据的模型合并是联邦学习的极端情况,其中允许单轮同步。

如图包含模型合并的问题形成及其RegMean与其他设置(包括多任务学习、模型集成和联邦学习)的比较。由个人或组织训练的模型 f1..N 发布给用户(可选地包含一些统计数据),但训练数据 D1..N 保密。

模型合并设置中的关键作用是合并函数 g 。 基本假设是所有模型 fi 的模型架构都是相同的,如果需要,允许进行逐元素操作,并产生与任何单个模型具有相同架构和大小的合并模型 fMK。 假设模型是从相同的预训练 LM 检查点进行微调的。

首先,推断合并在不同数据分布上训练的两个线性回归模型的最佳解决方案,并分析其与简单平均的关系。

两个线性模型 f1, W1, f2, W2, 训练数据集 ,合并问题是一个优化目标:

之后扩展到K个模型合并:

问题(2)即 回归平均(RegMean) 。总而言之,为了将线性模型 fi 与其他模型合并,预先计算训练数据 Xi^TXi 的内积矩阵;与不同模型合并时,不会重新计算 Xi^TXi。合并检索各个模型输入的权重和内积矩阵,并计算权重,如式(2)所示。

RegMean也可以理解为对权重矩阵中的行,进行重新加权和线性组合,其中Xi^TXi的对角项主要对行进行重新加权,而非对角项则对行进行线性组合。在 Xi^TXi 是对角线的极端情况下,RegMean 只是根据神经元的重要性重新加权 Wi 中的行。此外,当所有Xi^TXi(或所有Xi)相同时,公式(2)转化为简单平均。

Transformer 模型由前馈层和注意头组成,其中线性层是重要组成部分。对于所有线性层,独立应用 RegMean。记录每个线性层f(j)的Xi(j)^TXi(j),其中Xi(j)是线性层的输入特征。其他类型的权重,例如嵌入和偏差项,代表整个参数集的一小部分,使用简单平均来合并。

直接应用方程(2) 对于某些预训练的 LM 架构来说,合并会产生退化模型。因此,减小内积矩阵的非对角项,通过乘一标量 α(大多数情况下设置为 0.9)。这也对应于在方程(1)的优化目标中添加正则化项,惩罚合并权重 WM 和单个模型权重 W1..K 之间的欧几里得距离。

如下算法总结了完整的 RegMean 方法

计算效率。







请到「今天看啥」查看全文