高效的训练和推理。
低精度是提高训练效率和使用 LLM 的关键 [Micikevicius et al., 2017, Shoeybi et al., 2019, Wortsman et al., 2023b, Zhu et al., 2023]。先前的研究通常研究训练期间的精度 [Courbariaux,2014,Dettmers,2024/2021,Sun,2020,Liu,2023] 或训练后改变精度的影响(训练后量化)[Frantar,2022,Lin,2024b,Dettmers,2022,Xiao,2023,Sheng,2023,Dettmers,2023]。
大型语言模型和规模化。
通过扩大 Transformer 架构 [Vaswani et al., 2017],已经提出多种大语言模型 [Brown, 2020, Rae et al., 2021, Touvron et al., 2023a,b, Dubey et al., 2024, Le Scao et al., 2023, Muennighoff et al., 2022, 2024a, Groeneveld et al., 2024, Jiang et al., 2023, Zhang et al., 2022, Allal et al., 2023, Li et al., 2023, Lozhkov et al., 2024, Luukkonen et al., 2023, Bai et al., 2023, Chowdhery et al., 2023、Team et al., 2023、Ustun et al., 2024、Deitke et al., 2024]。为了加深对这些模型的理解,各种工作研究了它们的规模化特性 [Ruan et al., 2024、Zhu & Li, 2024、H ̈agele et al., 2024]。许多方面都与规模化相关,包括架构 [Tay et al., 2022a, Krajewski et al., 2024, Tai et al., 2024, Clark et al., 2022, Tay et al., 2022b, Scao et al., 2022, Peng et al., 2024],所考虑的模式 [Aghajanyan et al., 2023, Alabdulmohsin et al., 2022, Cherti et al., 2023]、性能指标 [Wei et al., 2022、Srivastava et al., 2022、Isik et al., 2024]、数据构成 [Li et al., 2024、Liu et al., 2024、Albalak et al., 2024] 和数据重复 [Muennighoff et al., 2024b]。
最简单、最常见的量化技术是对现成的模型进行训练后量化 [Chee et al., 2024, Huang et al., 2024, Dettmers et al., 2022, Lin et al., 2023, Xiao et al., 2023]。考虑在 BF16 中训练的模型,并使用 GPTQ [Frantar et al., 2022] 对它们进行训练后量化。量化由此产生的损失退化 δ/PTQ,发现训练后量化在数据中规模化很差。