大语言模型的压缩：综述

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-23 00:38

正文

23年8月的综述论文“A Survey on Model Compression for Large Language Models“，来自国内中科院和人大。

大语言模型（LLM）在自然语言处理任务取得了显著的成功。然而，其过大的规模和计算需求给实际部署带来了重大挑战，尤其是在资源受限的环境中。随着这些挑战变得越来越重要，模型压缩已经成为缓解这些限制的关键领域。本文对LLM量身定制的模型压缩技术进行了综述。为了满足高效部署的迫切需求，深入研究了各种方法，包括量化、修剪、知识蒸馏等。在每一种技术中，强调了最近的进步和创新的方法，这些方法有助于LLM研究的发展。此外，还探讨了基准评分策略和评估指标，这些策略和指标对评估压缩LLM的有效性至关重要。

如图是压缩方法分类：

与ICL相比，思维链（CoT）采用了一种不同的方法，它将中间推理步骤（可以导致最终输出）合并到提示中，而不是使用简单的输入-输出对。MT-COT[Li 2022]旨在利用LLM产生的解释来加强对小型推理的训练。它利用多任务学习框架，为较小的模型提供强大的推理能力和生成解释的能力。Fintune-CoT[Ho 2023]通过随机采样从LLM生成多个推理解决方案。训练数据的增加有助于学生模型的学习过程。（Fu2023a/b）在语言模型的多维能力之间进行了权衡，并提出了对指令调整模型进行微调的建议。其从大型教师模型中蒸馏出CoT推理路径，改进分布外（OOD）的泛化。（Hsieh2023）采用LLM原理作为在多任务框架内训练较小模型的额外引导。SOCRATIC CoT[Shridhar2023]训练两个蒸馏模型：一个问题分解器和一个子问题求解器。分解器将原始问题分解为一系列子问题，而子问题求解器处理这些子问题的求解。DISCO[Chen 2023]介绍了一种基于LLM的全自动反事实知识蒸馏方法。工程师使用LLM提示生成短语扰动，然后通过特定任务的教师模型过滤这些扰动，提取高质量的反事实数据。对于基本原理的忠实性，SCOTT[Wang 2023a]采用对比解码，将每个推理与答案联系起来。它鼓励老师提出相关的理由。此外，引导学生进行反事实推理，并根据造成不同答案的理由进行预测。

指令跟从（IF）努力提高语言模型在执行新任务时的能力，它仅基于阅读任务描述，而不依赖少样本示例。用一系列以指令形式表示的任务进行微调，语言模型展示了准确执行以前未见指令中所描述任务的能力。例如，Lion[Jiang 2023]利用LLM的适应性来提高学生模型的性能。它提示LLM识别并生成“硬”指令，然后利用这些指令来增强学生模型的能力。这种方法开发LLM的多功能性来引导学生模型在处理复杂指令和任务时的学习。

大语言模型的压缩：综述

正文

请到「今天看啥」查看全文