基本信息和摘要
论文题目
Quantum-informed Tensor Adaptation (QuanTA): Efficient High-Rank Fine-Tuning of Large Language Models
Paper:
https://arxiv.org/abs/2406.00132
Code:
https://github.com/quanta-fine-tuning/quanta
作者
Zhuo Chen, Rumen Dangovski, Charlotte Loh, Owen Dugan, Di Luo, Marin Soljačić
作者研究单位
-
NSF AI Institute for Artificial Intelligence and Fundamental Interactions
-
Department of Physics, Massachusetts Institute of Technology
-
Department of EECS, Massachusetts Institute of Technology
-
Department of Physics, Harvard University
摘要
提出了一种新颖的微调方法Quantum-informed Tensor Adaptation (QuanTA),该方法利用从量子电路结构(
quantum circuit
structures)中派生的量子启发式方法,实现了对大规模预训练语言模型(LLMs)的高效高秩微调。QuanTA方法无需推理开销,理论上由universality theorem 和 rank representation theorem 表示定理支持,相比 LoRA 能够实现高效的高秩适应。实验结果表明,QuanTA在常识推理、算术推理和可扩展性方面显著优于传统方法。此外,QuanTA
在可训练参数数量较少的情况下展现出优越的性能
,并且可以与现有的微调算法集成以实现进一步的改进,为大型语言模型的微调提供了一种
可扩展且高效
的解决方案。
动机:Low Rank is not Always Sufficient!
在PEFT方法中,低秩适应(LoRA)因其简单有效而受到关注。但是,LoRA依赖于低秩近似,有时在
复杂任务
中可能导致与全参数微调相比的性能差距,尤其是和与训练数据集差异较大的情况下。为了克服这一局限性,本文提出了QuanTA,这是一种新颖的、易于实施的微调方法,灵感来自量子电路。QuanTA通过使用类似于量子电路中的张量操作来实现高效的高秩适应,解决了LoRA等低秩方法固有的局限性。
RTE 比 DROP简单,实验表明DROP需要更高的秩。
方法
具体方法描述
QuanTA方法的核心是
利用张量操作来模拟量子电路中的门操作。这些张量被设计为仅在特定的轴上应用,类似于量子电路中的单量子比特或双量子比特门
。通过这种方式,QuanTA能够以高秩参数化来适应LLMs的权重矩阵。
相关公式
假设有一个预训练的权重矩阵
,QuanTA通过一系列张量
来参数化权重更新
,其中每个张量
作用在特定的轴上。权重更新可以表示为:
其中,
是可训练的张量。
QuanTA的构建
QuanTA由一系列张量组成,每个张量
作用在两个轴上。具体地,对于一个张量
,其形状为
,并且定义其作用为:
。
QuanTA操作符
通过顺序应用这些张量来构建: