1. 基本信息和摘要
论文题目
Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
-
Arxiv:
https://arxiv.org/pdf/2402.05445
-
Code:
https://github.com/htqin/ir-qlora
作者
Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda Liu, Jie Luo, Xianglong Liu, Michele Magno
作者研究单位
拟解决问题
现有的量化方法在降低模型大小的同时,会导致模型准确性的显著下降。为了
在量化过程中保留更多的原始信息,并进一步提升量化模型的性能
,本文提出了IR-QLoRA方法。
摘要
随着大型语言模型(LLMs)在自然语言理解等领域的广泛应用,但其参数量和计算量十分庞大,如何在
资源受限的硬件上部署
这些模型成为了一个重要问题。
量化
作为一种压缩LLMs的有前途的方法,通过降低位宽来减少模型大小,但通常会显著降低模型的准确性。本文
-
提出了一种新的量化方法IR-QLoRA,通过
信息校准量化(ICQ)
和
信息弹性连接(IEC)
两种技术,提高了量化LLMs的准确性。
-
在2-4位宽度下,IR-QLoRA在LLaMA和LLaMA2系列模型上实现了显著的
准确性
提升。例如在MMLU上,4位宽度的LLaMA-7B模型与现有最先进方法相比实现了1.4%的改进。
-
在提高准确性的同时,IR-QLoRA仅需要极少的
时间消耗
(0.31%)增加。
2. 方法
信息校准量化(ICQ)
信息校准量化(ICQ)技术通过最大化
量化权重的信息熵
来提高量化参数的信息保留度。
ICQ 引入校准常数
来调整量化过程,
。优化目标是通过搜索最优的
和比例因子
,最大化量化权重的信息熵
,确保量化后的权重能够最大程度地保留原始信息。
补充:
表示
位的 NormalFloat 量化。NormalFloat 量化是一种特殊的量化方法,它将权重的数值范围映射到一个固定点的表示形式,通常用于深度学习模型的参数量化以减少模型的存储和计算需求。这种方法尝试保持权重的分布特性,同时降低表示它们的所需位数。