专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
哲学园  ·  进步、世俗化与现代性(乔拓新 译) ·  昨天  
哲学园  ·  情人节大放送!爱她,就送她紫水晶 ·  昨天  
51好读  ›  专栏  ›  深度学习与图网络

2024 || QuanTA: 一种新的高秩高效微调范式

深度学习与图网络  · 公众号  ·  · 2024-06-05 11:51

正文

基本信息和摘要

论文题目

Quantum-informed Tensor Adaptation (QuanTA): Efficient High-Rank Fine-Tuning of Large Language Models

Paper: https://arxiv.org/abs/2406.00132

Code: https://github.com/quanta-fine-tuning/quanta

作者

Zhuo Chen, Rumen Dangovski, Charlotte Loh, Owen Dugan, Di Luo, Marin Soljačić

作者研究单位

  1. NSF AI Institute for Artificial Intelligence and Fundamental Interactions
  2. Department of Physics, Massachusetts Institute of Technology
  3. Department of EECS, Massachusetts Institute of Technology
  4. Department of Physics, Harvard University

摘要

提出了一种新颖的微调方法Quantum-informed Tensor Adaptation (QuanTA),该方法利用从量子电路结构( quantum circuit structures)中派生的量子启发式方法,实现了对大规模预训练语言模型(LLMs)的高效高秩微调。QuanTA方法无需推理开销,理论上由universality theorem 和 rank representation theorem 表示定理支持,相比 LoRA 能够实现高效的高秩适应。实验结果表明,QuanTA在常识推理、算术推理和可扩展性方面显著优于传统方法。此外,QuanTA 在可训练参数数量较少的情况下展现出优越的性能 ,并且可以与现有的微调算法集成以实现进一步的改进,为大型语言模型的微调提供了一种 可扩展且高效 的解决方案。

动机:Low Rank is not Always Sufficient!

在PEFT方法中,低秩适应(LoRA)因其简单有效而受到关注。但是,LoRA依赖于低秩近似,有时在 复杂任务 中可能导致与全参数微调相比的性能差距,尤其是和与训练数据集差异较大的情况下。为了克服这一局限性,本文提出了QuanTA,这是一种新颖的、易于实施的微调方法,灵感来自量子电路。QuanTA通过使用类似于量子电路中的张量操作来实现高效的高秩适应,解决了LoRA等低秩方法固有的局限性。

RTE 比 DROP简单,实验表明DROP需要更高的秩。

方法

具体方法描述

QuanTA方法的核心是 利用张量操作来模拟量子电路中的门操作。这些张量被设计为仅在特定的轴上应用,类似于量子电路中的单量子比特或双量子比特门 。通过这种方式,QuanTA能够以高秩参数化来适应LLMs的权重矩阵。

相关公式

假设有一个预训练的权重矩阵 ,QuanTA通过一系列张量 来参数化权重更新 ,其中每个张量 作用在特定的轴上。权重更新可以表示为: 其中, 是可训练的张量。

QuanTA的构建

QuanTA由一系列张量组成,每个张量 作用在两个轴上。具体地,对于一个张量 ,其形状为 ,并且定义其作用为:

QuanTA操作符 通过顺序应用这些张量来构建:







请到「今天看啥」查看全文