深度缩放
。从具有 n 层的基模型中,为缩放模型设置目标层数,这很大程度上取决于可用的硬件。深度放大是通过深度缩放和随后的持续预训练的双步过程来实现的。深度缩放过程如下。复制具有 n 层的基模型以供后续修改。然后,从原始模型中删除最后的 m 层,并从其副本中删除最初的 m 层,从而形成两个具有 n − m 层的不同模型。这两个模型连接起来形成一个具有 s = 2·(n−m) 层的缩放模型。请注意,基模型中的 n = 32,考虑到硬件限制和缩放模型的效率,设置 s = 48,即在 7 到 130 亿个参数之间进行拟合。自然,这会移除 m = 8 层。n = 32、s = 48 和 m = 8 时的深度缩放过程如图 的“步骤 1:深度缩放”所示。
如果深入研究缩放模型的异质性,深度缩放的一个更简单的替代方案可能是再次重复这些层,即从 n 层到 2n 层。那么,“层距离”,或者说基模型中层索引的差异,仅在第 n 层和 n + 1 层连接处(即在接缝处)大于 1。
然而,这会导致接缝处最大的层距离,这对于持续预训练来说可能太大而无法快速解决。相反,深度缩放牺牲了 2m 个中间层,从而减少接缝处的差异,并使持续预训练更容易快速恢复性能。所以作者将 DUS 的成功归因于在深度缩放和持续预训练步骤中减少了这种差异。还假设其他深度缩放方法也适用于 DUS,只要在持续预训练步骤之前充分考虑缩放模型中的差异即可。
在DUS之后,还需要做指令调优和对齐调优。
HuggingFace Open LLM Leaderboard(Beeching et al., 2023)中提出六种评估方法:ARC(Clark et al., 2018)、HellaSWAG(Zellers et al., 2019)、MMLU(Hendrycks et al., 2019)、MMLU(Hendrycks et al., 2020)、TruthfulQA(Lin,2022)、Winogrande(Sakaguchi,2021)和 GSM8K(Cobbe,2021)。利用这些数据集作为评估基准,并记录六个任务的平均分数 H6。要么直接提交给 Open LLM 排行榜,要么利用公司自己的评估库 Evalverse(Kim,2024b)在本地运行评估,其概览图(来自论文“
Evalverse: Unified and Accessible Library for Large Language Model Evaluation
”)如下所示: