ICML 2024 || 黎曼预处理器增强LoRA

深度学习与图网络 · 公众号 · · 2024-07-05 09:08

正文

注明：本文方法和LoRA+一样，都是解决模型无穷宽度（∞-width）时LoRA训练结果次优的问题。LoRA+通过对矩阵设置不同的学习率，并只提供了调参的经验参考。本文提供了一个更优雅且实用的解决方案，提高优化的收敛性，可靠性和鲁棒性。 ICML 2024 || LoRA+: 提升模型微调效率的秘诀

1. 基本信息和摘要

论文题目

Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models

Arxiv: https://arxiv.org/pdf/2402.02347
Code: https://github.com/pilancilab/Riemannian_Preconditioned_LoRA

作者

Fangzhao Zhang, Mert Pilanci

作者研究单位

Department of Electrical Engineering, Stanford University

解决问题

神经网络宽度（表征维度大小）无穷大的时候（∞-width），LoRA结果次优。LoRA+通过为和矩阵设置不同学习率来改善这个问题，并通过实验建议学习率比例为。这个方法 不能立即提供实际指导 。本文为稳定特征学习提供了一个更优雅且实用的解决方案, 且不增加太多时间消耗。

ICML 2024 || LoRA+: 提升模型微调效率的秘诀

摘要

在这项工作中，作者研究了通过引入 黎曼预处理器 (Riemannian precondition) 来增强低秩适应（LoRA）微调过程的方法。具体来说，作者在每一步梯度更新中引入了一个的预处理器，其中是LoRA的秩。

这个预处理器只需要对现有的优化器代码进行微小的改动，并且几乎不增加存储和运行时间开销。实验结果表明，使用这种预处理器可以显著提高SGD和AdamW的 收敛性 和 可靠性 ，并且使训练过程对超参数选择（如学习率）更加鲁棒。理论上，作者展示了使用这种预处理器对两层层叠ReLU网络在凸参数化下的微调具有与数据矩阵的条件数无关的收敛速率。这是首次将黎曼预处理器引入深度学习任务。