专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
募格学术  ·  重磅:高级科学润色服务正式上线 ·  2 天前  
弗雷赛斯  ·  DeepSeek:全球51本期刊已支持“一稿多投” ·  2 天前  
募格学术  ·  西安交通大学发布情况通报 ·  3 天前  
51好读  ›  专栏  ›  PaperWeekly

ICLR 2025 | 小型AI也能懂人类?中山大学全新方法ADPA让小模型对齐实现大突破!

PaperWeekly  · 公众号  · 科研  · 2025-03-19 13:54

主要观点总结

本文介绍了小型语言模型(SLMs)在人工智能世界中的挑战和对齐问题。利用大模型对齐技术的新突破来解决小模型对齐难题,其中提出的研究利用大模型指导小模型学习人类偏好,通过知识蒸馏(KD)让小模型继承大模型的理解能力。文章详细介绍了该研究中的双重约束知识蒸馏(DCKD)和优势引导蒸馏(ADPA)方法,并通过实验证明其有效性。文章还涵盖了消融实验、样本复杂度的分析和不同奖励级别的实验等内容。

关键观点总结

关键观点1: 小型语言模型(SLMs)在人工智能世界中的挑战和对齐问题。

SLMs面临对齐难题,即如何微调这些模型以遵循指令。目前存在的方法在对齐小模型方面仍有不足,针对这一问题,提出利用大模型对齐技术来指导小模型学习。

关键观点2: 利用大模型指导小模型学习人类偏好的方法。

研究利用知识蒸馏(KD)技术,通过大模型的分布粒度的指导和O(1)的样本复杂度,让小模型直接继承大模型对于人类偏好的理解能力。

关键观点3: 双重约束知识蒸馏(DCKD)和优势引导蒸馏(ADPA)方法的详细介绍。

DCKD方法在传统知识蒸馏的基础上增加了一个额外的KL散度约束,同时考虑正向和反向信号。ADPA方法通过引入优势函数进一步优化训练过程,显著提升小模型的对齐能力。

关键观点4: 实验证明的有效性。

文章通过一系列实验证明DCKD和ADPA方法的有效性,包括与其他方法的比较和消融实验。实验结果表明,这些方法在提升小模型对齐效果方面效果显著。


正文

©PaperWeekly 原创 · 作者 | 高世平

单位 | 中山大学硕士生

研究方向 | 语言模型偏好对齐


背景

AI 的世界里,大型语言模型( LLMs )凭借强大的参数量和计算能力,已经能够生成与人类偏好高度一致的回答,成为 ChatGPT 等明星产品的核心。然而,这些“大块头”模型对算力和内存的需求极高,难以在手机、边缘设备等资源受限场景中普及。


于是,小型语言模型( SLMs )成为了备受关注的替代方案 —— 它们轻量、高效,却面临一个棘手的问题:在对齐人类偏好后,效果往往不佳,通用性能甚至会下降。这种现象被研究者称为“对齐税”( Alignment Tax ),仿佛小模型在努力“理解”人类时,付出了额外的代价。

1.1 小模型对齐的难题: Hugging Face 的坦言

Hugging Face 首席科学官( CSO )之一托马斯·沃尔夫( Thomas Wolf )在 2024 8 月发布著名的 SmolLM 小模型系列时,也直言不讳地指出小模型在对齐方面的不足。


他在 X 上表示:“另一个问题是模型对齐,即如何微调这些模型以遵循指令。我们已经为大型模型开发了一些非常有效的数据集和方法(如监督微调 SFT 、直接偏好优化 DPO 、近端策略优化 PPO 等),但如果你尝试 即时 SmolLM 演示,你会发现对齐后的小模型在这方面仍存在不足”。来源:

https://x.com/Thom_Wolf/status/1825094850686906857

这一坦言揭示了目前 SLMs 的对齐仍存在很多挑战。

1.2 新突破:大模型带小模型“飞”

针对这一难题,一项由中山大学 & Meta AI 最新研究提出了一种创新解决方案,利用已经对齐好的大模型“手把手”教小模型,通过知识蒸馏( KD )让小模型直接继承大模型对于人类偏好的理解能力。


该研究的核心在于,通过大模型的分布粒度的指导和 O(1) 的样本复杂度,小模型不仅能学会“什么是好的回答”,还能明白“什么是不好的”,从而大幅提升对齐效果。


目前这项工被国际机器学习顶级会议 ICLR 2025 接受,成功入选 Spotlight


论文标题:

Advantage-Guided Distillation for Preference Alignment in Small Language Models

论文地址:

https://openreview.net/pdf?id=xsx3Fpo3UD

论文仓库:

https://github.com/SLIT-AI/ADPA



方法介绍

研究团队提出了两种创新方法,以下是详细介绍:

2.1 双重约束知识蒸馏( DCKD

DCKD 利用偏好数据,从对齐好的大模型(教师模型)向未对齐的小模型(学生模型)传递知识。


为了让小模型同时捕捉正向(喜欢的回答 )和反向(不喜欢的回答 )信号,DCKD 在传统知识蒸馏的基础上增加了一个额外的 KL 散度约束。公式如下:

其中, 分别是教师模型和大模型在输入 下生成正向输出 (wining response)和反向输出 (losing response)的概率分布, 是超参数,用于平衡正向和反向信号的权重。


这种设计让学生模型不仅要模仿教师模型对正确答案的预测,还要理解教师模型对错误答案的判断。这样,学生就能更全面地掌握教师的决策逻辑,通过“双重约束”(正向和反向信号)提升对偏好的理解能力。

2.2 优势引导蒸馏( ADPA

ADPA 是这项研究的亮点,作为“主菜”,它通过引入“优势函数”( Advantage Function )进一步优化训练过程,显著提升小模型的对齐能力。具体来说,优势函数的计算基于经过直接偏好优化( DPO )训练的大模型(对齐模型)和一个未训练的参考模型(未对齐模型)。


优势函数的计算:ADPA 中的优势函数 通过比较对齐后的教师模型(DPO Teacher, )和参考教师模型(reference Teacher, )在同一输入下的输出概率分布之差来计算,告诉学生在特定情况下哪些行为更符合人类偏好。

原论文附录 A 中给出了其完整的证明过程。这种设计利用了大模型对齐后的分布优势,捕捉偏好与非偏好的相对差异,作为小模型优化的指导信号。优势函数的在强化学习中用于衡量特定动作(或输出)相对于平均行为的优劣。


基于最大化优势函数期望的目标, ADPA 的损失函数被定义如下:

其中, ,其中 是学生模型针对提示 生成的响应, 是提示 的真实响应。 表示监督微调损失,用于保留基本能力并避免过度优化,超参数 用于平衡监督微调项和优势引导蒸馏项(这里借鉴了 RPO 中使用 SFT 项避免过度优化的思路)。


通过这种明确的奖励引导,学生模型能直接学习到偏好相关的动作,而不仅是模仿输出分布,从而更高效地实现偏好对齐。

2.3 ADPA+—— DCKD ,后 ADPA

研究还提出了 ADPA+ ,它对 DCKD 训练后的学生模型进行 ADPA 训练。 ADPA+ 首先使用 DCKD 进行初步知识蒸馏,让小模型初步模仿大模型的行为,然后通过 ADPA 利用优势函数进一步细化对齐效果。


实验表明, ADPA+ 在性能上远超单独使用 DCKD ADPA ,尤其在小模型(如 Danube3-500M )上表现更优。


DCKD 先通过分布对齐让学生模型大致掌握教师的偏好知识,打下基础;然后 ADPA 利用优势函数提供更精确的指导,优化学生的偏好对齐能力。 ADPA+ 的流程如下:



实验

测评方法上,论文主要使用了 MT-Bench AlpacaEval ,和 OpenLLM Leaderboard OLL )。由于小模型的能力还不足以与 GPT-4 相媲美,比较胜率会引入较大的噪声,导致不同方法之间难以比较,所以论文中在测试 AlpacaEval 时,使用 ADPA 训练的小模型作为基线。


文中使用的教师 - 学生模型组合有: Llama3.1-8B->Llama3.2-1B Mistral7B->Danube3-500M, Danube2-1.8B Llama2-13B->Llama2-7B ;文中使用的指令微调数据集为 Deita-10K ,使用的偏好数据集为: DPO-MIX-7K HelpSteer2


实验结果如下:

实验结果表明, DCKD ADPA 显著优于基线方法(如 DPO SimPO VanillaKD 等)。


LLaMA-3.2-1B 为例,在 DPO-MIX-7K 上, DCKD ADPA 分别比 DPO 提升了 0.10 0.48 MT-Bench 评分,而 ADPA+ DCKD ADPA 结合)进一步提升至 4.02 ,胜率在 AlpacaEval 中达 53.8% 。在 Open LLM Leaderboard 上, ADPA+ 也展现出最佳平均性能(如 43.07 on HelpSteer2 )。



ADPA 为何有效?消融实验的启示

4.1 消融实验

ADPA 的优势函数中引入了参考教师,论文中对此进行了消融实验,尝试在优势函数中去掉 ,仅保留







请到「今天看啥」查看全文