早期权重平均满足LLM预训练的高学习率

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-06 06:23

正文

23年12月UT Austin的论文“Early Weight Averaging meets High Learning Rates for LLM Pre-training”。

训练大语言模型（LLM）会产生巨大的成本；因此，任何加速模型收敛的策略都是有帮助的。本文研究了一个简单的想法-沿训练运行轨迹进行检查点平均 -在训练过程中尽早提高收敛和泛化的能力。以高学习率训练的模型由于检查点平均观察到更高的增益。此外，在训练步骤中相当大的间隔采样检查点时，这些增益会被放大。这种训练方法优于传统训练和流行的检查点平均基线，例如指数移动平均 (EMA) 和随机移动平均 (SWA)。通过预训练LLMs来评估训练方案，由于一次批处理数量极大，高学习率本质上就是首选。具体来说，由 9B 个 tokens 组成的 OpenWebText 数据集上预训练不同大小的 nanoGPT-2 模型——小型 (125M)、中型 (335M) 和大型 (770M)。此外，还提供了公开可用的 Pythia LLM 的结果，范围从 1B 到 12B，这些结果在包含 207B tokens的 PILE-删除重复数据集上进行训练。代码可如下获取

github.com/sanyalsunny111/Early_Weight_Avg

建议在训练期间相对较早地以高学习率 (η) 执行模型权重的检查点平均。这一步骤背后的基本原理源于这样一个事实：检查点平均可以作为学习率（LR）衰减的替代，正如 Sandler 所证明的那样[33]。然而，这种替代 LR 衰减与优化过程中的权重更新无关，因为检查点平均是以事后方式进行的。利用这种简单的技术，在快速遍历 w2 的同时减轻了 w1 中的振荡，从而以更少的训练步骤实现增强的泛化，如图最近权重平均（LAWA）所示。