专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

大语言模型的压缩:综述

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-23 00:38

正文

23年8月的综述论文“A Survey on Model Compression for Large Language Models“,来自国内中科院和人大。

大语言模型(LLM)在自然语言处理任务取得了显著的成功。然而,其过大的规模和计算需求给实际部署带来了重大挑战,尤其是在资源受限的环境中。随着这些挑战变得越来越重要,模型压缩已经成为缓解这些限制的关键领域。本文对LLM量身定制的模型压缩技术进行了综述。为了满足高效部署的迫切需求,深入研究了各种方法,包括量化、修剪、知识蒸馏等。在每一种技术中,强调了最近的进步和创新的方法,这些方法有助于LLM研究的发展。此外,还探讨了基准评分策略和评估指标,这些策略和指标对评估压缩LLM的有效性至关重要。

如图是压缩方法分类:


剪枝是一种删除不必要或冗余组件来减小模型大小或复杂度的有效技术 [LeCun et al., 1989; Han et al., 2015; Li et al., 2017]。众所周知,许多冗余参数对模型的性能影响很小甚至没有影响,因此,直接剪枝这些冗余参数后,模型性能的下降最小。同时,剪枝可以使模型存储友好 [Ardakani et al., 2019]、内存效率 [Han et al., 2015; Yang et al., 2017]和计算效率 [Li et al., 2017]提高。剪枝可以分为非结构化剪枝 [Zhang et al., 2018; Gordon et al., 2020] 和结构化剪枝 [Anwar et al., 2017; Fang 等,2023]。结构化剪枝和非结构化剪枝的主要区别在于剪枝目标和由此产生的网络结构。结构化剪枝根据特定规则删除连接或层次结构,同时保留整体网络结构。另一方面,非结构化剪枝会修剪单个参数,从而产生不规则的稀疏结构。最近的研究致力于将 LLM 与剪枝技术相结合,旨在解决 LLM 的巨大规模和计算成本问题。


知识蒸馏(KD)[Hinton2015;Kim&Rush,2016;Tung&Mori,2019]是一种有价值的机器学习技术,旨在提高模型性能和泛化能力。它将知识从一个复杂的模型(称为教师模型)迁移到一个更简单的模型(即学生模型)。KD背后的核心思想是,将教师模型的综合知识转化为更流畅、更有效的表示。根据这些方法的阶段是否是将LLM的 涌现能力(EA) 提取到 小语言模型(SLM) 中来对其进行分类。因此,方法分为两类:标准KD和基于EA的KD。如图提供了LLM知识蒸馏的简要分类:

基于EA的KD超越了从LLM迁移公共知识的思路,还包括提取其独特的涌现能力。最近的研究[Wei2022a;Schaeffer2023;Zhao2023]强调,尽管增加模型大小,但与BERT(330M参数)和GPT-2(1.5B参数)等较小模型相比,GPT-3(175B参数)和PaLM(540B参数)表现出独特的行为。这些LLM在处理复杂任务时表现出令人惊讶的能力,被称为 涌现 能力,包括几个有趣的方面,包括 上下文学习(ICL) [Dong 2023;Wang2023b]、 思维链(CoT) [Wei 2022;Wang2023c;Shi2023]和 指令跟从(IF) [Ouyang 2021;Brooks2023]。如图提供了基于EA的知识蒸馏概念的简明表示。

上下文学习(ICL) 采用结构化的自然语言提示,其中包含任务描述,可能还有一些任务示例作为演示。通过这些任务示例,LLM可以在不需要显式梯度更新的情况下掌握和执行新任务。(Huang2022)的工作介绍了ICL蒸馏,将上下文中的少样本学习和语言建模能力从LLM迁移到SLM。这是上下文学习目标与传统语言建模目标相结合。为了实现这一点,在两种少样本学习范式下探索ICL的提炼:元上下文调整(Meta-ICT)和多任务上下文调整(Multitask-ICT)。在Meta-ICT技术中,语言模型用上下文学习目标在不同任务中进行元训练。这使它能够通过上下文学习来适应未见过的任务,从而扩展其解决问题的能力。另一方面,Multi-task ICT使用ICL目标和一些示例对模型进行微调。随后,它采用上下文学习来进行预测。比较这两种范式,多任务-ICT技术表现出优于元-ICT技术的性能。然而,在任务调整过程中,它确实需要更多的计算资源,使其计算更加密集。

与ICL相比, 思维链(CoT) 采用了一种不同的方法,它将中间推理步骤(可以导致最终输出)合并到提示中,而不是使用简单的输入-输出对。MT-COT[Li 2022]旨在利用LLM产生的解释来加强对小型推理的训练。它利用多任务学习框架,为较小的模型提供强大的推理能力和生成解释的能力。Fintune-CoT[Ho 2023]通过随机采样从LLM生成多个推理解决方案。训练数据的增加有助于学生模型的学习过程。(Fu2023a/b)在语言模型的多维能力之间进行了权衡,并提出了对指令调整模型进行微调的建议。其从大型教师模型中蒸馏出CoT推理路径,改进分布外(OOD)的泛化。(Hsieh2023)采用LLM原理作为在多任务框架内训练较小模型的额外引导。SOCRATIC CoT[Shridhar2023]训练两个蒸馏模型:一个问题分解器和一个子问题求解器。分解器将原始问题分解为一系列子问题,而子问题求解器处理这些子问题的求解。DISCO[Chen 2023]介绍了一种基于LLM的全自动反事实知识蒸馏方法。工程师使用LLM提示生成短语扰动,然后通过特定任务的教师模型过滤这些扰动,提取高质量的反事实数据。对于基本原理的忠实性,SCOTT[Wang 2023a]采用对比解码,将每个推理与答案联系起来。它鼓励老师提出相关的理由。此外,引导学生进行反事实推理,并根据造成不同答案的理由进行预测。

指令跟从(IF) 努力提高语言模型在执行新任务时的能力,它仅基于阅读任务描述,而不依赖少样本示例。用一系列以指令形式表示的任务进行微调,语言模型展示了准确执行以前未见指令中所描述任务的能力。例如,Lion[Jiang 2023]利用LLM的适应性来提高学生模型的性能。它提示LLM识别并生成“硬”指令,然后利用这些指令来增强学生模型的能力。这种方法开发LLM的多功能性来引导学生模型在处理复杂指令和任务时的学习。







请到「今天看啥」查看全文