专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

白话版Scaling Laws for Precision 解读

机器学习研究组订阅 · 公众号 · AI · 2025-01-30 18:03

正文

文章强调了在不同训练精度下，如何平衡模型性能和量化损失，以及在实际应用中选择合适的量化策略的重要性。

前置知识：

scaling law:

Training Compute-Optimal Large Language Models(Chinchilla scaling law)

太长不看版：

个人讨厌晦涩难懂+无法应用于实际场景的"装逼结论"，因此先按照自己的理解帮大家rephrase一下论文的主要发现(in plain language)：

首先，这是一篇研究精度(precision)、参数量(parameters)和训练数据量(tokens)之间关系的重要论文。

1. 关于后训练量化(Post-Training Quantization, PTQ):

1.1 基本概念

指的是pretrain以较高精度(bf16)进行，结束后再量化到更低精度（如int4）。

1.2 结论1

模型预训练的trained_token/parameter比率越高，预训练结束后，使用PTQ带来的性能下降就越大。这里作者没写明白有误导性！！！实际上这个结论指的是：

我们都知道PTQ一定会带来性能下降（PTQ后，valid loss相比pretrain之后会上升)，这个下降可以用
论文提出了预测这个下降值的公式。
其中:

训练数据量D越大，PTQ带来的损失越大(正相关)
参数量N越大，PTQ带来的损失越小(负相关)
量化后的精度Ppost越低，损失增加越多(负指数关系)
N: 参数量
D: 训练token数
: PTQ后的精度
：拟合常数
这个公式告诉我们：

注意，δPTQ还有一种完整形式（section 5) 同时考虑了训练精度和推理精度（继续往后看）：
那么如果你必须进行PTQ，那么对于同样参数量大小的模型，被训更多token的模型的 δPTQ 会比喂更少数据的模型要大。但最终loss的绝对数量是多少并不一定，因为即便 δPTQ 这个正数会让loss上升（性能下降），但模型终归被训了更多数据，这么一抵消可能loss还是会下降。相当于两只无形的手（数据量的上升带来的loss下降、PTQ带来的loss上升）在掰手腕；给定模型参数量和固定的精度，具体谁能掰过谁会有一个打平手的cutoff数据量。
举例子，如果你要固定70B模型参数量并pretrain时候采用bf16，并且pretrain后要PTQ到int4。那么采用两种数据量：

a) 用10B token训出来模型
b) 5B token训出来的模型

那么一定是a)情况的 δPTQ 更大，但最终PTQ结束之后的loss的数值是多少就不一定了。
因此作者也在原文中提到了**there exists an amount of pretraining data beyond which additional data is actively harmful to performance at inference-time (see top-left, Figure 2)，也就是给定你要进行PTQ，那么对于你的实验设置，总有一个cutoff的数据量，称之为临界的数据量 Dcrit ，超过这个量后继续训练会导致PTQ后性能下降。这个临界点并不是说超过后训练数据就“有害”，而是说在进行PTQ后，性能的提升可能会被性能的下降所抵消。因此，在实际应用中，需要权衡训练数据量与模型量化后的性能。
论文给出了计算这个临界点的公式。

其他结论

在某些情况下，过度训练（more tokens）反而会让PTQ后的模型性能变差。
更大的模型在相同的token/parameter比率下，对PTQ更鲁棒。
对于固定大小的数据集，增加模型参数量可以提高PTQ的鲁棒性。
这种规律在不同的PTQ方法中都存在（论文验证了GPTQ、AWQ和RTN三种方法）。

训练精度的影响

训练时使用较低精度的模型在PTQ时性能下降较小。
如果你知道模型最终需要被量化到很低的精度(比如4bit)，那么在训练时就使用相对较低的精度(比如8bit)可能比使用高精度(比如16bit)更好，因为这样可以让模型在训练过程中就适应量化噪声。
实话说这个结论初看有点脱裤子放屁，因为太符合直觉了（bushi）。用脚想想就知道【训练用int8然后量化到int4】肯定比【训练用bf16然后量化到int4】要好，原文section 5：models trained in lower precision are more robust to post-train quantization in the sense of incurring lower degradation。
这也解释了为什么一些较新的大语言模型倾向于使用BF16而不是FP32来训练，因为这不仅可以节省计算资源，还可能让模型在后续量化时表现更好

1.3 PTQ造成loss degradation的深入分析

1.3.1 两个竞争效应（section 5）

在分析PTQ对模型性能的影响时，论文发现了两个相互竞争的效应：

Robustification效应；
低精度训练会让模型更适应量化噪声；
这使得模型在后续PTQ时更加鲁棒；
可以理解为模型学会了如何在噪声环境中运作；
Overtraining效应；
低精度训练会降低模型的有效参数量()，这意味着模型在相同的数据量下“看起来”参数量更少，从而在PTQ时对参数量化的敏感性增加；
因为和成正比, 较低的Neff理论上会导致更大的性能下降: (section 5这边第一次读还以为写错了）。作者说的实际上应该参考公式 9 变为，随着的增加, 确实增加, 也就是成正比。说明白点就是低精度训练会下降Neff, 也就是一个模型的可能有效的参数只有 10 B , 然后变大, 然后根据section 3 的公式就会造成更大的degradation)。
这个效应与Robustification效应相反。

在实践中，Robustification效应通常占主导，这就是为什么低精度训练的模型在PTQ时表现更好。

1.3.2 精度阈值效应

一个重要发现是，当精度低于5-bit时，PTQ带来的性能下降会急剧增加：

在高精度区间（如8-bit以上），D/N比率的增加对性能的影响相对温和。
在5-bit以下，即使很小的D/N比率增加也可能导致显著的性能下降。
这个发现对实践中选择量化精度有重要指导意义-- 在实际应用中，应避免将模型量化到低于5-bit的精度，除非有特定的需求和相应的优化技术支持。

1.3.3 理论解释

论文在附录中提供了两个可能的理论解释：

Sharpness假说

模型在训练过程中会逐渐变得更"sharp"-- 随着训练的进行，模型的损失函数变得更加“尖锐”（sharp），即梯度和Hessian矩阵的特征值增加，这导致模型对参数扰动更加敏感。因此，PTQ带来的参数量化噪声会对尖锐的损失函数产生更大的影响。
Sharp的模型对参数扰动更敏感。
这种敏感性会随着训练的进行而增加。
这解释了为什么过度训练可能导致更大的PTQ降质。

分层学习假说

模型通过分层方式学习特征-- 模型通过逐步学习更复杂的特征，这些特征依赖于之前学习的基础特征。量化噪声影响基础特征，会级联地影响到更高层次的复杂特征，从而导致整体性能的下降。
早期学习基础特征，后期学习复杂特征。
复杂特征依赖于基础特征的准确性。
当基础特征受到量化噪声影响时，会对依赖它们的复杂特征造成级联效应。
这解释了为什么训练时间越长，模型对量化越敏感。

2. 关于训练时量化（Training-time Quantization）

2.1 基本概念

论文中将训练时量化分为两种情况：

仅量化权重（Quantization-Aware Training, QAT）：只将模型的权重量化到低精度，其他部分保持高精度，以适应推理阶段的低精度环境。
全面量化（Low-precision Training）：同时量化模型的权重、激活值和注意力计算（即键-值缓存），以减少计算资源需求。

注意：这里的权重指模型中所有线性层（Linear layers）的权重矩阵，包括：

Transformer 中的所有投影矩阵（例如 query、key、value 的投影权重）；
嵌入层（Embedding layers）权重矩阵；
最终输出层的权重矩阵。

但在论文的实验中未对嵌入层（Embedding layer）进行量化。

量化实现细节：

论文遵循了 FP8 训练的标准规范（Micikevicius et al., 2022）；
权重采用按通道(per-channel) 量化；
激活值采用按张量(per-tensor) 量化；
对于后训练量化（PTQ），主要针对模型权重进行量化。

2.2 核心发现

权重、激活值和注意力的量化效果是独立且可乘的，这一点非常关键。

论文提出了“有效参数量 Neff effective parameter count）”的概念。简而言之， Neff 代表了模型在低精度下的“真实有效”参数量。在低精度训练时，模型的实际参数量 N会被折减为较低的 Neff ，这有助于评估模型在低精度量化下的性能损失。

基本形式：

完整形式（全面量化）：

其中：

N：模型的实际参数量；
Pw ：权重精度；
Pa：激活值精度；
Pkv ：注意力计算精度；
γw、γa、γkv ：各部分的敏感度系数，反映了模型对不同量化精度的适应性。

举个例子，在相同的计算预算下，有两种方案：

a) 使用 16-bit 精度训练较小的模型；

请到「今天看啥」查看全文