专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

ICLR 2025 | 小型AI也能懂人类？中山大学全新方法ADPA让小模型对齐实现大突破！

PaperWeekly · 公众号 · 科研 · 2025-03-19 13:54

主要观点总结

本文介绍了小型语言模型（SLMs）在人工智能世界中的挑战和对齐问题。利用大模型对齐技术的新突破来解决小模型对齐难题，其中提出的研究利用大模型指导小模型学习人类偏好，通过知识蒸馏（KD）让小模型继承大模型的理解能力。文章详细介绍了该研究中的双重约束知识蒸馏（DCKD）和优势引导蒸馏（ADPA）方法，并通过实验证明其有效性。文章还涵盖了消融实验、样本复杂度的分析和不同奖励级别的实验等内容。

关键观点总结

关键观点1: 小型语言模型（SLMs）在人工智能世界中的挑战和对齐问题。

SLMs面临对齐难题，即如何微调这些模型以遵循指令。目前存在的方法在对齐小模型方面仍有不足，针对这一问题，提出利用大模型对齐技术来指导小模型学习。

关键观点2: 利用大模型指导小模型学习人类偏好的方法。

研究利用知识蒸馏（KD）技术，通过大模型的分布粒度的指导和O(1)的样本复杂度，让小模型直接继承大模型对于人类偏好的理解能力。

关键观点3: 双重约束知识蒸馏（DCKD）和优势引导蒸馏（ADPA）方法的详细介绍。

DCKD方法在传统知识蒸馏的基础上增加了一个额外的KL散度约束，同时考虑正向和反向信号。ADPA方法通过引入优势函数进一步优化训练过程，显著提升小模型的对齐能力。

关键观点4: 实验证明的有效性。

文章通过一系列实验证明DCKD和ADPA方法的有效性，包括与其他方法的比较和消融实验。实验结果表明，这些方法在提升小模型对齐效果方面效果显著。

正文

©PaperWeekly 原创 · 作者 | 高世平

单位 | 中山大学硕士生

研究方向 | 语言模型偏好对齐

背景

在 AI 的世界里，大型语言模型（ LLMs ）凭借强大的参数量和计算能力，已经能够生成与人类偏好高度一致的回答，成为 ChatGPT 等明星产品的核心。然而，这些“大块头”模型对算力和内存的需求极高，难以在手机、边缘设备等资源受限场景中普及。

于是，小型语言模型（ SLMs ）成为了备受关注的替代方案 —— 它们轻量、高效，却面临一个棘手的问题：在对齐人类偏好后，效果往往不佳，通用性能甚至会下降。这种现象被研究者称为“对齐税”（ Alignment Tax ），仿佛小模型在努力“理解”人类时，付出了额外的代价。

1.1 小模型对齐的难题： Hugging Face 的坦言

Hugging Face 首席科学官（ CSO ）之一托马斯·沃尔夫（ Thomas Wolf ）在 2024 年 8 月发布著名的 SmolLM 小模型系列时，也直言不讳地指出小模型在对齐方面的不足。

他在 X 上表示：“另一个问题是模型对齐，即如何微调这些模型以遵循指令。我们已经为大型模型开发了一些非常有效的数据集和方法（如监督微调 SFT 、直接偏好优化 DPO 、近端策略优化 PPO 等），但如果你尝试 ‘ 即时 SmolLM 演示，你会发现对齐后的小模型在这方面仍存在不足”。来源：

https://x.com/Thom_Wolf/status/1825094850686906857

这一坦言揭示了目前 SLMs 的对齐仍存在很多挑战。

1.2 新突破：大模型带小模型“飞”

针对这一难题，一项由中山大学 & Meta AI 最新研究提出了一种创新解决方案，利用已经对齐好的大模型“手把手”教小模型，通过知识蒸馏（ KD ）让小模型直接继承大模型对于人类偏好的理解能力。

该研究的核心在于，通过大模型的分布粒度的指导和 O(1) 的样本复杂度，小模型不仅能学会“什么是好的回答”，还能明白“什么是不好的”，从而大幅提升对齐效果。

目前这项工被国际机器学习顶级会议 ICLR 2025 接受，成功入选 Spotlight 。

论文标题：

Advantage-Guided Distillation for Preference Alignment in Small Language Models

论文地址：

https://openreview.net/pdf?id=xsx3Fpo3UD

论文仓库：

https://github.com/SLIT-AI/ADPA

方法介绍

研究团队提出了两种创新方法，以下是详细介绍：

2.1 双重约束知识蒸馏（ DCKD ）

DCKD 利用偏好数据，从对齐好的大模型（教师模型）向未对齐的小模型（学生模型）传递知识。

为了让小模型同时捕捉正向（喜欢的回答）和反向（不喜欢的回答）信号，DCKD 在传统知识蒸馏的基础上增加了一个额外的 KL 散度约束。公式如下：

其中，和分别是教师模型和大模型在输入下生成正向输出（wining response）和反向输出（losing response）的概率分布，是超参数，用于平衡正向和反向信号的权重。

这种设计让学生模型不仅要模仿教师模型对正确答案的预测，还要理解教师模型对错误答案的判断。这样，学生就能更全面地掌握教师的决策逻辑，通过“双重约束”（正向和反向信号）提升对偏好的理解能力。

2.2 优势引导蒸馏（ ADPA ）

ADPA 是这项研究的亮点，作为“主菜”，它通过引入“优势函数”（ Advantage Function ）进一步优化训练过程，显著提升小模型的对齐能力。具体来说，优势函数的计算基于经过直接偏好优化（ DPO ）训练的大模型（对齐模型）和一个未训练的参考模型（未对齐模型）。

优势函数的计算：ADPA 中的优势函数通过比较对齐后的教师模型（DPO Teacher，）和参考教师模型（reference Teacher，）在同一输入下的输出概率分布之差来计算，告诉学生在特定情况下哪些行为更符合人类偏好。

原论文附录 A 中给出了其完整的证明过程。这种设计利用了大模型对齐后的分布优势，捕捉偏好与非偏好的相对差异，作为小模型优化的指导信号。优势函数的在强化学习中用于衡量特定动作（或输出）相对于平均行为的优劣。

基于最大化优势函数期望的目标， ADPA 的损失函数被定义如下：

其中，，其中是学生模型针对提示生成的响应，是提示的真实响应。表示监督微调损失，用于保留基本能力并避免过度优化，超参数用于平衡监督微调项和优势引导蒸馏项（这里借鉴了 RPO 中使用 SFT 项避免过度优化的思路）。

通过这种明确的奖励引导，学生模型能直接学习到偏好相关的动作，而不仅是模仿输出分布，从而更高效地实现偏好对齐。

2.3 ADPA+—— 先 DCKD ，后 ADPA

研究还提出了 ADPA+ ，它对 DCKD 训练后的学生模型进行 ADPA 训练。 ADPA+ 首先使用 DCKD 进行初步知识蒸馏，让小模型初步模仿大模型的行为，然后通过 ADPA 利用优势函数进一步细化对齐效果。

实验表明， ADPA+ 在性能上远超单独使用 DCKD 或 ADPA ，尤其在小模型（如 Danube3-500M ）上表现更优。

DCKD 先通过分布对齐让学生模型大致掌握教师的偏好知识，打下基础；然后 ADPA 利用优势函数提供更精确的指导，优化学生的偏好对齐能力。 ADPA+ 的流程如下：

实验

测评方法上，论文主要使用了 MT-Bench 、 AlpacaEval ，和 OpenLLM Leaderboard （ OLL ）。由于小模型的能力还不足以与 GPT-4 相媲美，比较胜率会引入较大的噪声，导致不同方法之间难以比较，所以论文中在测试 AlpacaEval 时，使用 ADPA 训练的小模型作为基线。

文中使用的教师 - 学生模型组合有： Llama3.1-8B->Llama3.2-1B 、 Mistral7B->Danube3-500M, Danube2-1.8B 、 Llama2-13B->Llama2-7B ；文中使用的指令微调数据集为 Deita-10K ，使用的偏好数据集为： DPO-MIX-7K 和 HelpSteer2 。

实验结果如下：

实验结果表明， DCKD 和 ADPA 显著优于基线方法（如 DPO 、 SimPO 、 VanillaKD 等）。

以 LLaMA-3.2-1B 为例，在 DPO-MIX-7K 上， DCKD 和 ADPA 分别比 DPO 提升了 0.10 和 0.48 的 MT-Bench 评分，而 ADPA+ （ DCKD 与 ADPA 结合）进一步提升至 4.02 ，胜率在 AlpacaEval 中达 53.8% 。在 Open LLM Leaderboard 上， ADPA+ 也展现出最佳平均性能（如 43.07 on HelpSteer2 ）。

ADPA 为何有效？消融实验的启示

4.1 消融实验

ADPA 的优势函数中引入了参考教师，论文中对此进行了消融实验，尝试在优势函数中去掉，仅保留