专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

目录

相关文章推荐

财宝宝 · 我家婆娘是60.35公斤。也没什么。关键看肉 ... · 20 小时前

财宝宝 · @财多多-多多：主要还是看老登这个人呢，20 ... · 昨天

财宝宝 · 男人被婆姨骂了，怎么平复内心的波澜？ ... · 2 天前

财宝宝 · 你怎么称呼你家那个120斤的美美哒？ ... · 3 天前

财宝宝 · 这还要你教？滚！-20250208223758 · 3 天前

51好读 › 专栏 › 深度学习与图网络

ICML 2024 || LoRA+: 提升模型微调效率的秘诀

深度学习与图网络 · 公众号 · · 2024-06-21 11:56

正文

基本信息和摘要

论文题目

LoRA+: Efficient Low Rank Adaptation of Large Models

链接：https://arxiv.org/pdf/2402.12354
代码：https://github.com/nikhil-ghosh-berkeley/loraplus

作者

Soufiane Hayou , UC Berkeley
Nikhil Ghosh , UC Berkeley
Bin Yu , UC Berkeley

摘要

作者指出原始 LoRA 方法在对嵌入维度较大的模型进行微调时会导致次优结果。这是由于LoRA中的适配器矩阵和都是以相同的学习率更新。对于和使用相同的学习率并不能有效学习特征。 通过为LoRA适配器矩阵 和 设置不同学习率且具有固定比例 ，可以简单地纠正LoRA的这种次优性, 即LoRA+。在广泛的实验中，LoRA+在保持与LoRA相同的计算成本的同时，提高了性能（1% - 2%的改进）和微调速度（高达约2倍）。

介绍

主要贡献

本文的主要贡献在于提出了LoRA+方法，它通过以下方式改进了现有的LoRA微调技术：

效率分析 ：通过理论分析，指出了在模型表征维度趋向于无穷大时，使用相同学习率更新LoRA中的A和B矩阵会导致效率低下。
LoRA+算法 ：提出了一种新的算法LoRA+，该算法通过为A和B设置不同的学习率，并保持一个固定的比例。
实验验证 ：通过在不同语言模型和任务上的广泛实验，验证了LoRA+在提高性能和微调速度方面的优势。
理论指导 ：提供了设置学习率的理论指导，特别是在无限t特征维度下对LoRA微调动态的分析，为实际应用中的参数调整提供了依据。
性能提升 ：实验结果显示，LoRA+在多个任务上实现了1%至2%的性能提升，并且在某些情况下能够实现约2倍的微调速度提升。

重要发现

当的学习率远大于的学习率时，模型性能最佳。
在困难的任务上，LoRA+的性能提升更为显著（ Figure3 MNLI 和 QQP）。
LoRA+在保持计算成本不变的情况下，实现了性能和速度的双重提升。

方法

动机

在深度学习模型中，尤其是宽度（表征维度 embedding dimension）较大的模型，使用相同的学习率更新所有参数可能导致训练效率低下。特别是在LoRA微调方法中，适配器矩阵和以相同的学习率更新，这在模型宽度较大时不能有效学习特征。

具体方法描述

LoRA+方法的核心在于为LoRA适配器矩阵A和B设置不同的学习率。具体来说，设置A的学习率为ηA，B的学习率为ηB = ληA，其中λ是一个大于1的固定比例。这种方法基于以下理论分析：

无限宽度极限分析 ：在模型宽度趋向于无穷大时，分析LoRA微调动态，发现标准LoRA设置是次优的。
学习率设置 ：通过设置和，即可以确保在无限宽度( -width)极限下LoRA微调的稳定性和效率。实践中，确保。
实验确定比例 λ ：通过实验验证，确定了的一个经验值，该值在多种情况下都能改善性能。

下图（ Figure 1 ）展示了标准LoRA与LoRA+的区别。

实验发现

请到「今天看啥」查看全文

推荐文章

财宝宝 · 我家婆娘是60.35公斤。也没什么。关键看肉肉有没有站对地方。-20250211112715

20 小时前

财宝宝 · @财多多-多多：主要还是看老登这个人呢，20g还是200g，都不-20250210180115

昨天

财宝宝 · 男人被婆姨骂了，怎么平复内心的波澜？去恰几把。-20250209141155

2 天前

财宝宝 · 你怎么称呼你家那个120斤的美美哒？高兴的时候-20250208222302

3 天前

财宝宝 · 这还要你教？滚！-20250208223758

3 天前

唐唐频道 · 救命！我的主银是个蛇精病！

7 年前

北京大学出版社 · 这场来自法兰西的“艳遇”竟然迟到了200年！

7 年前

上海头条 · 注意！90%的司机都不知道，停车时为啥要车头向外？

7 年前

秋叶PPT · 出乎意料，明星出轨还会影响大家学PPT？

7 年前

央视新闻 · 关注 | “小作坊灌装名牌啤酒”视频网上疯传！这背后到底有什么样的生意经？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!