专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
百度智能云  ·  首日1.5万后,百度智能云千帆助力DeepS ... ·  12 小时前  
白鲸出海  ·  Perplexity超级碗“0预算”营销,仍 ... ·  10 小时前  
阿里开发者  ·  0代码!2种方式一键部署 DeepSeek ... ·  14 小时前  
百度智能云  ·  @所有企业,您有四款AI原生应用DeepSe ... ·  3 天前  
白鲸出海  ·  中国互联网出海一周头条 ... ·  2 天前  
51好读  ›  专栏  ›  深度学习与图网络

ICML 2024 || qGOFT: 基于Givens旋转的正交微调

深度学习与图网络  · 公众号  ·  · 2024-08-04 21:54

正文


基本信息和摘要

题目

Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation

Arxiv : https://arxiv.org/pdf/2404.04316

作者

Xinyu Ma, Xu Chu, Zhibang Yang, Yang Lin, Xin Gao, Junfeng Zhao

研究单位

北京大学

拟解决问题

作者提出qGOFT方法,旨在提高参数效率并增强模型对下游任务的适应性。

  1. 参数效率问题 :OFT方法的参数量随模型维度的增加而呈平方级增长( ),这在处理高维模型时会导致参数效率低下。

  2. 适应能力问题 :OFT在适应下游任务时对语义变化的适应能力有限,无法有效捕捉预训练模型与下游任务之间的细微语义差异。





摘要

随着预训练模型性能的日益强大和规模的不断扩大,促进微调过程中的参数效率成为适应各种下游任务的关键需求。本文提出了一种新颖的微调方法—— 准Givens正交微调(qGOFT) , 以解决现有正交微调(OFT)方法在参数效率和下游任务适应能力上的局限。qGOFT首先利用 个Givens旋转在 中实现任意正交变换,证明了与OFT等价的表达能力,同时将参数复杂度从 降低到 。此外,qGOFT引入了 软正交正则化 下的灵活范数和相对角度调整,以增强对下游语义偏差的适应能力。通过在不同任务(NLP & 视觉) 和 预训练模型上的广泛实验,验证了该方法的有效性。


理论依据

背景:Givens旋转

Givens旋转 是一种在二维子空间中进行旋转的简单方法,可以用以下矩阵表示:

其中, 是旋转角度, 确定旋转的坐标轴。

重要定理

定理 4.1 (Givens旋转的充分性) 给定任意向量 ,存在一组 个特定的Givens旋转 ,这些旋转可以将向量 变换为与 同在 维球面上的任意其他向量 ,即满足

解释

  • 只需要 个旋转角度可以实现任意的旋转变换 。具体而言,在 维空间中,通过适当选择旋转角度,可以用远少于 个参数(每个Givens旋转只需要一个角度参数)来表示一个正交变换。

  • 这为参数高效的正交微调提供了理论基础,因为它表明可以 用线性数量级的参数来近似一个可能需要二次方数量级的参数的变换。


方法

1. 解决参数效率

利用Givens旋转的性质,通过最多 个Givens旋转的乘积来实现 维空间中的任意旋转。 这种方法将参数从 减少到

2. 解决适应能力

原始的 OFT 方法 通过保持权重向量之间的相对角度距离来保留预训练模型的知识。然而,这种方法在适应下游任务时存在局限性,因为它严格保持了权重向量的范数和相对角度,这 限制了模型对下游任务中语义变化的适应能力

为了解决这个问题,作者提出了准Givens正交微调(qGOFT)方法。qGOFT 通过 引入可调的范数和相对角度调整 ,增强了模型对下游任务语义变化的适应能力,同时在 软正交性约束下保持了正交性

数学表达公式

qGOFT 方法将每个 Givens 旋转 替换为一个准Givens 变换 ,其数学表达如下:

其中,







请到「今天看啥」查看全文