专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
江南都市报  ·  亚冠:泽卡、克雷桑传射&卡扎破门,泰山3比1 ... ·  9 小时前  
江南都市报  ·  亚冠:泽卡、克雷桑传射&卡扎破门,泰山3比1 ... ·  9 小时前  
现代快报  ·  北京国安一球员家人称其国外集训因伤脑死亡 ·  9 小时前  
现代快报  ·  北京国安一球员家人称其国外集训因伤脑死亡 ·  9 小时前  
51好读  ›  专栏  ›  深度学习与图网络

ICML 2024 || IR-QLoRA: 大模型量化新方法

深度学习与图网络  · 公众号  ·  · 2024-07-09 08:30

正文

1. 基本信息和摘要

论文题目

Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

  • Arxiv: https://arxiv.org/pdf/2402.05445
  • Code: https://github.com/htqin/ir-qlora

作者

Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda Liu, Jie Luo, Xianglong Liu, Michele Magno

作者研究单位

  1. 北京航空航天大学
  2. ETH (苏黎世联邦理工学院)
  3. 字节跳动AI实验室

拟解决问题

现有的量化方法在降低模型大小的同时,会导致模型准确性的显著下降。为了 在量化过程中保留更多的原始信息,并进一步提升量化模型的性能 ,本文提出了IR-QLoRA方法。

摘要

随着大型语言模型(LLMs)在自然语言理解等领域的广泛应用,但其参数量和计算量十分庞大,如何在 资源受限的硬件上部署 这些模型成为了一个重要问题。 量化 作为一种压缩LLMs的有前途的方法,通过降低位宽来减少模型大小,但通常会显著降低模型的准确性。本文

  • 提出了一种新的量化方法IR-QLoRA,通过 信息校准量化(ICQ) 信息弹性连接(IEC) 两种技术,提高了量化LLMs的准确性。
  • 在2-4位宽度下,IR-QLoRA在LLaMA和LLaMA2系列模型上实现了显著的 准确性 提升。例如在MMLU上,4位宽度的LLaMA-7B模型与现有最先进方法相比实现了1.4%的改进。
  • 在提高准确性的同时,IR-QLoRA仅需要极少的 时间消耗 (0.31%)增加。

2. 方法

信息校准量化(ICQ)

信息校准量化(ICQ)技术通过最大化 量化权重的信息熵 来提高量化参数的信息保留度。

ICQ 引入校准常数 来调整量化过程, 。优化目标是通过搜索最优的 和比例因子 ,最大化量化权重的信息熵 ,确保量化后的权重能够最大程度地保留原始信息。

补充: 表示 位的 NormalFloat 量化。NormalFloat 量化是一种特殊的量化方法,它将权重的数值范围映射到一个固定点的表示形式,通常用于深度学习模型的参数量化以减少模型的存储和计算需求。这种方法尝试保持权重的分布特性,同时降低表示它们的所需位数。







请到「今天看啥」查看全文