专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

Mentor-KD 方法解决LLM推理蒸馏挑战，高效将多步推理能力灌输给小模型！

智驾实验室 · 公众号 · · 2025-03-01 08:00

正文

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

大型语言模型（LLMs）通过链式思维（CoT） Prompt 在各种复杂任务上表现出令人瞩目的性能。

最近，有研究提出了知识蒸馏（KD）方法，即推理蒸馏，通过微调LLM教师生成的多步推理语言模型的语言模型，将LLM的推理能力进行传递。

然而，他们没有充分考虑LLM教师模型中存在的两个挑战，即1）数据质量和2）软标签提供。

在本文中，作者提出了一种名为Mentor-KD的方法，该方法在解决上述挑战的同时，有效地将LLM的多步推理能力蒸馏到较小的语言模型中。

具体而言，作者利用一个导师，中间大小的特定任务微调模型，在推理蒸馏过程中为学生的模型增加额外的CoT标注并为其提供软标签。作者进行了大量实验，并确认了Mentor-KD在各种模型和复杂推理任务中的有效性。

1 Introduction

大型语言模型（LLMs）展示出了惊人的新兴能力，在自然语言处理（NLP）领域中展现出了多种推理任务的能力。Brown等人（2020年）、Rae等人、Hoffmann等人和Chowdhery等人的研究都证实了这一点。这种方法中一个特别有趣的方法是连续思维（CoT） Prompt ，通过明确生成复杂任务的中间推理步骤来诱发LLM的多步推理能力。然而，这种推理能力只体现在具有数百亿参数的语言模型（LMs）上，这需要大量的计算资源或昂贵的API调用，限制了它们在资源受限场景中的部署。

为应对这些部署挑战，之前的工作Ho等人；Li等人（2023）；Magister等人（2023）采用了知识蒸馏（KD）方法，即推理蒸馏，将LLM的多步推理能力转移到小型的LLM中。KD Pipeline 通常在LLM教师模型上应用即席学习（ICL）来生成输出（例如，多步推理），并将其作为蒸馏集，然后利用它们来微调学生模型。

以前的研究表明，推理蒸馏可以显著提高学生性能，甚至可能在特定任务上超越他们的LLM教师Ho等人；Chen等人。

然而，推理蒸馏方法之前存在两个由LLM教师生成的不足蒸馏集所带来的挑战。首先，由于LLM可能没有访问特定任务的数据，推理集的质量可能较低（例如，在GPT-3.5上的策略性问答的准确率仅为58%）。

LLM教师的推理质量有限制，因为它们排除了那些负面影响学生表现的错误推理，这些错误推理来自于Ho等人（2023年）的研究。其次，由于黑盒LLM教师的可用性通常受到限制，学生模型无法模拟来自软标签的预测行为和知识。这样的疏忽可能导致学生模型过度适应于来自教师模型的有限蒸馏集，从而损害其泛化能力。

为了应对这些挑战，作者提出了一种名为Mentor-KD的新颖推理浓缩框架，该框架可以有效地浓缩LLM的多步推理能力。作者的核心思想是引入一个mentor，一个中间大小的特定任务模型，在推理浓缩过程中补充LLM教师的知识。为此，作者首先在特定任务上微调mentor模型，并生成CoT合理性和软标签来扩充浓缩集。通过利用特定任务的mentor，其能力集中于特定目标能力，Mentor-KD通过在更多样化的合理性和软标签的训练以及内在知识的利用，有效地解决了两个问题。

作者在各种复杂的推理任务上进行了广泛的实验，包括常识推理、算术推理、逻辑推理和符号推理任务。实验结果明确显示，作者的方法在利用仅限于LLM的 Baseline 上的知识方面具有优越性。

此外，作者还验证了mentor模型可以生成比其他LLM Baseline 更多的正确推理样本，突显了作者方法作为数据增强的有效性。最后，作者展示了作者的mentor-KD在低资源场景下显著提高了学生的性能，表明了其成本效益。

总的来说，本文的贡献包括以下几点：

作者提出了一种名为Mentor-KD的新颖推理蒸馏框架，该框架在考虑语言模型教师提供的不足的蒸馏集限制下，提高了小型语言模型的推理能力。
作者提出了一种导师模型，可以生成补充LLM教师有限训练数据的有理性和软标签样本。
作者通过大量实验表明，Mentor-KD在各种类型的推理和学生模型上，提高了推理蒸馏的有效性。

2 Related Works

Chain-of-Thought Prompting

因果 Prompt （CoT prompting）是一种通过ICL（Wei等人，2022年）来激发语言模型多步推理能力的方法。CoT的本质在于，它为语言模型提供逻辑进展的指导，帮助其分解和解决复杂的推理任务。因此，它使得语言模型在复杂的推理任务上表现出色，这些任务传统的小样本学习方法往往难以解决。近期的工作通过提高推理步骤的质量来进一步改进 CoT Prompt 。Madaan等人（2023年）通过自我反馈让语言模型迭代自 refined推理，而Gou等人（2024年）则利用外部工具获取反馈。Trivedi等人（2023年）；Zhao等人（2023年）将信息检索系统集成到语言模型推理中，以增强其推理的可信度。

尽管取得了成功，但之前的工作报告，当预训练语言模型（PLMs）扩展到数百亿参数时，基于CoT的推理的优点才会出现。为了解决这些问题，作者的工作重点是通过推理蒸馏使小规模PLMs实现CoT推理。

Knowledge Distillation for LLMs

KD (Hinton等人，2015年)被证明是一种有前景的压缩LMs的方法，通过将大型LMs的预测行为（例如软标签）或内部知识（例如隐藏表示）转移到较小规模的LMs中。然而，现有的KD方法针对预训练的LMs，涉及提取软标签（Sanh等人，2019年；Gu等人，2024年）或表示，需要访问教师模型的内部参数。这些需求对利用KD中的LLMs造成了很大的挑战，因为它们具有黑盒性质和不切实际性。

反过来，最近的研究实践了推理蒸馏，使得较小的 LMs（学生）通过使用 LLM 教师生成的理由来执行多步推理，类似于 LLMs，而不是软标签。例如，Ho 等人（2023）； Magister 等人（2023）；

李等人（2023）在 LLM 生成的多步推理的基础上微调了学生。同样，Shridhar 等人（2023）让学生通过让 LLM 生成子问题来分解一个复杂问题。王等人（2023）迭代地使用 LLM 提供了实时反馈，该反馈专门针对学生的生成。康等人（2023）；

赵等人（2024）利用信息检索系统来增强学生在知识密集型任务上的推理的真实性。最近，朱等人（2024, 2024）将多步推理以 LLM 生成的代码格式集成到提高学生的算术推理技能。

与此同时，周和爱等人（2024）也利用中等大小的模型进行 LLM 蒸馏。作者的工作不同之处在于，作者使用中等大小的模型来补充教师模型蒸馏信号，而不是用于过滤标注。

虽然大多数先前的研究都是通过利用LLM提供的知识蒸馏集来改进推理蒸馏，但作者认为这些方法可能不足够，可能会削弱学生的能力。因此，作者的工作与LLM教师在这方面存在的不足相辅相成。

3 Methodology

作者详细阐述了作者的Mentor-KD的实现细节。核心思想是利用特定任务的中间大小的mentor模型来增强蒸馏训练集。为此，作者首先从LLM教师模型中生成CoT标注（第3.1节）。然后，作者将LLM教师模型提供的蒸馏集与mentor模型进行微调，训练好的mentor模型生成额外的训练集，包括理由和软标签（第3.2节）。通过从mentor中增强两种信号，作者将知识蒸馏到学生模型（第3.3节）。图2说明了作者的框架概述。

Chain-of-Thought Annotations

作者使用LLM通过零样本CoT（Kojima等人，2022年）从CoT标注中获取答案，这些标注由一个推理和一个最终预测组成。这种方法采用两阶段策略，包括推理和答案提取阶段，因此作者首先诱导LLM生成一个CoT推理，然后生成一个最终预测。

具体而言，作者首先将"Let's think step by step"添加到问题中， Prompt LLM获取推理。接下来，作者通过将已获得的推理纳入 Prompt ，再次 Prompt LLM以诱导其最终预测。正式而言，从一个数据集中，其中表示一个问题，表示黄金标签，作者的目标是使LLM生成一个分步推理和最终预测，给定作为输入。 Prompt 模板的形式为："Q: \{r^{t}_{i}\}. 因此，答案是 "。

后来，作者过滤由LLM生成的标注。参考Li等人（2023）；Magister等人（2023）；Fu等人（2023）；Lee等人（2024）之前的工作，作者在最终预测与样本的黄金答案相匹配的标注上保留标注。然后，将标注重新格式化为问题和标签格式，以便用于训练导师和学生模型。更正式地，对于所有的标注，作者将一个数据样本重新格式化为，其中采用 " " 的形式。因此，答案为 " "。因此，作者最后构建了。

Mentor Model

在这里，作者描述了如何训练作者的导师模型以集中力量于特定任务，并利用它们来补充LLM教师的不足之处。

训练.对于训练导师模型，作者直接在之前构建的上进行微调。具体来说，导师模型接收作为输入，作为标签，并采用标准的语言建模目标进行训练。

合理增强。然后，训练好的导师模型用于训练数据增强。对于来自的数据样本，作者让导师模型逐步标注理由，以作为输入。导师模型返回一个标签，它包括一个逐步理由和对其本身的预测。作者通过像过滤教师的标注一样过滤导师的标注，并保留的数据样本。通过这一阶段，作者为每个数据集构建。

结合来自导师(