基本信息和摘要
题目
Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation
Arxiv
: https://arxiv.org/pdf/2404.04316
作者
Xinyu Ma, Xu Chu, Zhibang Yang, Yang Lin, Xin Gao, Junfeng Zhao
研究单位
拟解决问题
作者提出qGOFT方法,旨在提高参数效率并增强模型对下游任务的适应性。
-
参数效率问题
:OFT方法的参数量随模型维度的增加而呈平方级增长(
),这在处理高维模型时会导致参数效率低下。
-
适应能力问题
:OFT在适应下游任务时对语义变化的适应能力有限,无法有效捕捉预训练模型与下游任务之间的细微语义差异。
摘要
随着预训练模型性能的日益强大和规模的不断扩大,促进微调过程中的参数效率成为适应各种下游任务的关键需求。本文提出了一种新颖的微调方法——
准Givens正交微调(qGOFT)
, 以解决现有正交微调(OFT)方法在参数效率和下游任务适应能力上的局限。qGOFT首先利用
个Givens旋转在
中实现任意正交变换,证明了与OFT等价的表达能力,同时将参数复杂度从
降低到
。此外,qGOFT引入了
软正交正则化
下的灵活范数和相对角度调整,以增强对下游语义偏差的适应能力。通过在不同任务(NLP & 视觉) 和 预训练模型上的广泛实验,验证了该方法的有效性。
理论依据
背景:Givens旋转
Givens旋转
是一种在二维子空间中进行旋转的简单方法,可以用以下矩阵表示:
其中,
是旋转角度,
和
确定旋转的坐标轴。
重要定理
定理 4.1 (Givens旋转的充分性)
给定任意向量
,存在一组
个特定的Givens旋转
,这些旋转可以将向量
变换为与
同在
维球面上的任意其他向量
,即满足
。
解释
-
只需要
个旋转角度可以实现任意的旋转变换
。具体而言,在
维空间中,通过适当选择旋转角度,可以用远少于
个参数(每个Givens旋转只需要一个角度参数)来表示一个正交变换。
-
这为参数高效的正交微调提供了理论基础,因为它表明可以
用线性数量级的参数来近似一个可能需要二次方数量级的参数的变换。
方法
1. 解决参数效率
利用Givens旋转的性质,通过最多
个Givens旋转的乘积来实现
维空间中的任意旋转。
这种方法将参数从
减少到
。
2. 解决适应能力
原始的 OFT 方法
通过保持权重向量之间的相对角度距离来保留预训练模型的知识。然而,这种方法在适应下游任务时存在局限性,因为它严格保持了权重向量的范数和相对角度,这
限制了模型对下游任务中语义变化的适应能力
。
为了解决这个问题,作者提出了准Givens正交微调(qGOFT)方法。qGOFT 通过
引入可调的范数和相对角度调整
,增强了模型对下游任务语义变化的适应能力,同时在
软正交性约束下保持了正交性
。
数学表达公式
qGOFT 方法将每个 Givens 旋转
替换为一个准Givens 变换
,其数学表达如下:
其中,