SOLAR 10.7B：通过深度扩大来规模化大语言模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-08 01:05

正文

23年12月韩国AI公司Upstage的论文“SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling”。

SOLAR 10.7B，这是一个拥有 107 亿个参数的大语言模型 (LLM)，在各种自然语言处理 (NLP) 任务中展示卓越的性能。受最近有效扩展 LLM 的努力的启发，本文提出一种称为深度扩大（DUS） LLM 扩展的方法，其中包括深度扩大和持续预训练。与其他使用专家混合MoE的 LLM 扩展方法相比，DUS 不需要复杂的更改来有效地训练和推理。实验证明，DUS 简单而有效，可以将小型LLM扩展到高性能LLM。在 DUS 模型的基础上，作者还推出SOLAR 10.7B-Instruct，这是一种针对指令跟踪功能进行微调的变型，超越 Mixtral-8x7B-Instruct。SOLAR 10.7B 在 Apache 2.0 许可证下公开可用，促进了 LLM 领域的广泛访问和应用。

基模型。任何 n 层 Transformer 架构都可以使用，但作者选择 32 层 Llama 2 架构作为基模型。用 Mistral 7B 的预训练权重来初始化 Llama 2 架构，因为它是与 Llama 2 架构兼容的最佳性能之一。通过采用 Llama 2 架构作为基模型，目标是利用大量的社区资源，同时引入修改进一步增强其功能。

深度缩放。从具有 n 层的基模型中，为缩放模型设置目标层数，这很大程度上取决于可用的硬件。深度放大是通过深度缩放和随后的持续预训练的双步过程来实现的。深度缩放过程如下。复制具有 n 层的基模型以供后续修改。然后，从原始模型中删除最后的 m 层，并从其副本中删除最初的 m 层，从而形成两个具有 n − m 层的不同模型。这两个模型连接起来形成一个具有 s = 2·(n−m) 层的缩放模型。请注意，基模型中的 n = 32，考虑到硬件限制和缩放模型的效率，设置 s = 48，即在 7 到 130 亿个参数之间进行拟合。自然，这会移除 m = 8 层。n = 32、s = 48 和 m = 8 时的深度缩放过程如图的“步骤 1：深度缩放”所示。

社区中同时开发了一种方法，该方法也以与图中的“步骤 1：深度缩放”相同的方式缩放模型。

如果深入研究缩放模型的异质性，深度缩放的一个更简单的替代方案可能是再次重复这些层，即从 n 层到 2n 层。那么，“层距离”，或者说基模型中层索引的差异，仅在第 n 层和 n + 1 层连接处（即在接缝处）大于 1。

然而，这会导致接缝处最大的层距离，这对于持续预训练来说可能太大而无法快速解决。相反，深度缩放牺牲了 2m 个中间层，从而减少接缝处的差异，并使持续预训练更容易快速恢复性能。所以作者将 DUS 的成功归因于在深度缩放和持续预训练步骤中减少了这种差异。还假设其他深度缩放方法也适用于 DUS，只要在持续预训练步骤之前充分考虑缩放模型中的差异即可。

在DUS之后，还需要做指令调优和对齐调优。

HuggingFace Open LLM Leaderboard（Beeching et al., 2023）中提出六种评估方法：ARC（Clark et al., 2018）、HellaSWAG（Zellers et al., 2019）、MMLU（Hendrycks et al., 2019）、MMLU（Hendrycks et al., 2020）、TruthfulQA（Lin，2022）、Winogrande（Sakaguchi，2021）和 GSM8K（Cobbe，2021）。利用这些数据集作为评估基准，并记录六个任务的平均分数 H6。要么直接提交给 Open LLM 排行榜，要么利用公司自己的评估库 Evalverse（Kim，2024b）在本地运行评估，其概览图（来自论文“ Evalverse: Unified and Accessible Library for Large Language Model Evaluation ”）如下所示：

SOLAR 10.7B：通过深度扩大来规模化大语言模型

正文

请到「今天看啥」查看全文