专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
正午故事  ·  被“电诈”PUA的高学历者们 ·  2 天前  
码头青年  ·  南方来了个新闻老兵 ·  昨天  
三联生活周刊  ·  直到被拉上120,我爸才愿意戒烟酒 ·  3 天前  
中国舞台美术学会  ·  聚焦丨2025年中国音乐剧市场展望:从扩张到 ... ·  5 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

SOLAR 10.7B:通过深度扩大来规模化大语言模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-08 01:05

正文

23年12月韩国AI公司Upstage的论文“SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling”。

SOLAR 10.7B,这是一个拥有 107 亿个参数的大语言模型 (LLM),在各种自然语言处理 (NLP) 任务中展示卓越的性能。受最近有效扩展 LLM 的努力的启发,本文提出一种称为深度扩大(DUS) LLM 扩展的方法,其中包括深度扩大和持续预训练。与其他使用专家混合MoE的 LLM 扩展方法相比,DUS 不需要复杂的更改来有效地训练和推理。实验证明,DUS 简单而有效,可以将小型LLM扩展到高性能LLM。在 DUS 模型的基础上,作者还推出SOLAR 10.7B-Instruct,这是一种针对指令跟踪功能进行微调的变型,超越 Mixtral-8x7B-Instruct。SOLAR 10.7B 在 Apache 2.0 许可证下公开可用,促进了 LLM 领域 的广泛访问和应用。


基模型 。任何 n 层 Transformer 架构都可以使用,但作者选择 32 层 Llama 2 架构作为基模型。用 Mistral 7B 的预训练权重来初始化 Llama 2 架构,因为它是与 Llama 2 架构兼容的最佳性能之一。通过采用 Llama 2 架构作为基模型,目标是利用大量的社区资源,同时引入修改进一步增强其功能。

深度缩放 。从具有 n 层的基模型中,为缩放模型设置目标层数,这很大程度上取决于可用的硬件。深度放大是通过深度缩放和随后的持续预训练的双步过程来实现的。深度缩放过程如下。复制具有 n 层的基模型以供后续修改。然后,从原始模型中删除最后的 m 层,并从其副本中删除最初的 m 层,从而形成两个具有 n − m 层的不同模型。这两个模型连接起来形成一个具有 s = 2·(n−m) 层的缩放模型。请注意,基模型中的 n = 32,考虑到硬件限制和缩放模型的效率,设置 s = 48,即在 7 到 130 亿个参数之间进行拟合。自然,这会移除 m = 8 层。n = 32、s = 48 和 m = 8 时的深度缩放过程如图 的“步骤 1:深度缩放”所示。

社区中同时开发了一种方法,该方法也以与图中的“步骤 1:深度缩放”相同的方式缩放模型。


持续预训练。 深度缩放模型的性能最初低于基LLM的性能。 因此,另外应用持续预训练步骤,如图的“步骤 2: 持续预训练”所示。 在实验中,在持续预训练期间缩放模型的性能快速恢复,这一现象在 (Komatsuzaki 22)中也观察到。 深度缩放的特殊方式已经隔离缩放模型中的异质性,从而实现了快速的性能恢复。

如果深入研究缩放模型的异质性,深度缩放的一个更简单的替代方案可能是再次重复这些层,即从 n 层到 2n 层。那么,“层距离”,或者说基模型中层索引的差异,仅在第 n 层和 n + 1 层连接处(即在接缝处)大于 1。

然而,这会导致接缝处最大的层距离,这对于持续预训练来说可能太大而无法快速解决。相反,深度缩放牺牲了 2m 个中间层,从而减少接缝处的差异,并使持续预训练更容易快速恢复性能。所以作者将 DUS 的成功归因于在深度缩放和持续预训练步骤中减少了这种差异。还假设其他深度缩放方法也适用于 DUS,只要在持续预训练步骤之前充分考虑缩放模型中的差异即可。

在DUS之后,还需要做指令调优和对齐调优。


HuggingFace Open LLM Leaderboard(Beeching et al., 2023)中提出六种评估方法:ARC(Clark et al., 2018)、HellaSWAG(Zellers et al., 2019)、MMLU(Hendrycks et al., 2019)、MMLU(Hendrycks et al., 2020)、TruthfulQA(Lin,2022)、Winogrande(Sakaguchi,2021)和 GSM8K(Cobbe,2021)。利用这些数据集作为评估基准,并记录六个任务的平均分数 H6。要么直接提交给 Open LLM 排行榜,要么利用公司自己的评估库 Evalverse(Kim,2024b)在本地运行评估,其概览图(来自论文“ Evalverse: Unified and Accessible Library for Large Language Model Evaluation ”)如下所示:


其公司的Evalverse架构图如下:







请到「今天看啥」查看全文