本文介绍了小型语言模型(SLMs)在人工智能世界中的挑战和对齐问题。利用大模型对齐技术的新突破来解决小模型对齐难题,其中提出的研究利用大模型指导小模型学习人类偏好,通过知识蒸馏(KD)让小模型继承大模型的理解能力。文章详细介绍了该研究中的双重约束知识蒸馏(DCKD)和优势引导蒸馏(ADPA)方法,并通过实验证明其有效性。文章还涵盖了消融实验、样本复杂度的分析和不同奖励级别的实验等内容。
SLMs面临对齐难题,即如何微调这些模型以遵循指令。目前存在的方法在对齐小模型方面仍有不足,针对这一问题,提出利用大模型对齐技术来指导小模型学习。
研究利用知识蒸馏(KD)技术,通过大模型的分布粒度的指导和O(1)的样本复杂度,让小模型直接继承大模型对于人类偏好的理解能力。
DCKD方法在传统知识蒸馏的基础上增加了一个额外的KL散度约束,同时考虑正向和反向信号。ADPA方法通过引入优势函数进一步优化训练过程,显著提升小模型的对齐能力。
文章通过一系列实验证明DCKD和ADPA方法的有效性,包括与其他方法的比较和消融实验。实验结果表明,这些方法在提升小模型对齐效果方面效果显著。
©PaperWeekly
原创
·
作者
|
高世平
单位
|
中山大学硕士生
研究方向
|
语言模型偏好对齐
背景
在
AI
的世界里,大型语言模型(
LLMs
)凭借强大的参数量和计算能力,已经能够生成与人类偏好高度一致的回答,成为
ChatGPT
等明星产品的核心。然而,这些“大块头”模型对算力和内存的需求极高,难以在手机、边缘设备等资源受限场景中普及。
于是,小型语言模型(
SLMs
)成为了备受关注的替代方案
——
它们轻量、高效,却面临一个棘手的问题:在对齐人类偏好后,效果往往不佳,通用性能甚至会下降。这种现象被研究者称为“对齐税”(
Alignment Tax
),仿佛小模型在努力“理解”人类时,付出了额外的代价。
1.1 小模型对齐的难题:
Hugging Face
的坦言
Hugging Face
首席科学官(
CSO
)之一托马斯·沃尔夫(
Thomas Wolf
)在
2024
年
8
月发布著名的
SmolLM
小模型系列时,也直言不讳地指出小模型在对齐方面的不足。
他在
X
上表示:“另一个问题是模型对齐,即如何微调这些模型以遵循指令。我们已经为大型模型开发了一些非常有效的数据集和方法(如监督微调
SFT
、直接偏好优化
DPO
、近端策略优化
PPO
等),但如果你尝试
‘
即时
SmolLM
演示,你会发现对齐后的小模型在这方面仍存在不足”。来源:
https://x.com/Thom_Wolf/status/1825094850686906857
这一坦言揭示了目前
SLMs
的对齐仍存在很多挑战。
1.2 新突破:大模型带小模型“飞”
针对这一难题,一项由中山大学
& Meta AI
最新研究提出了一种创新解决方案,利用已经对齐好的大模型“手把手”教小模型,通过知识蒸馏(
KD
)让小模型直接继承大模型对于人类偏好的理解能力。
该研究的核心在于,通过大模型的分布粒度的指导和
O(1)
的样本复杂度,小模型不仅能学会“什么是好的回答”,还能明白“什么是不好的”,从而大幅提升对齐效果。
目前这项工被国际机器学习顶级会议
ICLR 2025
接受,成功入选
Spotlight
。
论文标题:
Advantage-Guided Distillation for Preference Alignment in Small Language Models
论文地址:
https://openreview.net/pdf?id=xsx3Fpo3UD
论文仓库:
https://github.com/SLIT-AI/ADPA
方法介绍
研究团队提出了两种创新方法,以下是详细介绍:
2.1 双重约束知识蒸馏(
DCKD
)
DCKD 利用偏好数据,从对齐好的大模型(教师模型)向未对齐的小模型(学生模型)传递知识。
为了让小模型同时捕捉正向(喜欢的回答
)和反向(不喜欢的回答
)信号,DCKD 在传统知识蒸馏的基础上增加了一个额外的 KL 散度约束。公式如下:
其中,
和
分别是教师模型和大模型在输入
下生成正向输出
(wining response)和反向输出
(losing response)的概率分布,
是超参数,用于平衡正向和反向信号的权重。
这种设计让学生模型不仅要模仿教师模型对正确答案的预测,还要理解教师模型对错误答案的判断。这样,学生就能更全面地掌握教师的决策逻辑,通过“双重约束”(正向和反向信号)提升对偏好的理解能力。
2.2 优势引导蒸馏(
ADPA
)
ADPA
是这项研究的亮点,作为“主菜”,它通过引入“优势函数”(
Advantage Function
)进一步优化训练过程,显著提升小模型的对齐能力。具体来说,优势函数的计算基于经过直接偏好优化(
DPO
)训练的大模型(对齐模型)和一个未训练的参考模型(未对齐模型)。
优势函数的计算:ADPA 中的优势函数
通过比较对齐后的教师模型(DPO Teacher,
)和参考教师模型(reference Teacher,
)在同一输入下的输出概率分布之差来计算,告诉学生在特定情况下哪些行为更符合人类偏好。
原论文附录
A
中给出了其完整的证明过程。这种设计利用了大模型对齐后的分布优势,捕捉偏好与非偏好的相对差异,作为小模型优化的指导信号。优势函数的在强化学习中用于衡量特定动作(或输出)相对于平均行为的优劣。
基于最大化优势函数期望的目标,
ADPA
的损失函数被定义如下:
其中,
,其中
是学生模型针对提示
生成的响应,
是提示
的真实响应。
表示监督微调损失,用于保留基本能力并避免过度优化,超参数
用于平衡监督微调项和优势引导蒸馏项(这里借鉴了 RPO 中使用 SFT 项避免过度优化的思路)。
通过这种明确的奖励引导,学生模型能直接学习到偏好相关的动作,而不仅是模仿输出分布,从而更高效地实现偏好对齐。
2.3 ADPA+——
先
DCKD
,后
ADPA
研究还提出了
ADPA+
,它对
DCKD
训练后的学生模型进行
ADPA
训练。
ADPA+
首先使用
DCKD
进行初步知识蒸馏,让小模型初步模仿大模型的行为,然后通过
ADPA
利用优势函数进一步细化对齐效果。
实验表明,
ADPA+
在性能上远超单独使用
DCKD
或
ADPA
,尤其在小模型(如
Danube3-500M
)上表现更优。
DCKD
先通过分布对齐让学生模型大致掌握教师的偏好知识,打下基础;然后
ADPA
利用优势函数提供更精确的指导,优化学生的偏好对齐能力。
ADPA+
的流程如下:
实验
测评方法上,论文主要使用了
MT-Bench
、
AlpacaEval
,和
OpenLLM Leaderboard
(
OLL
)。由于小模型的能力还不足以与
GPT-4
相媲美,比较胜率会引入较大的噪声,导致不同方法之间难以比较,所以论文中在测试
AlpacaEval
时,使用
ADPA
训练的小模型作为基线。
文中使用的教师
-
学生模型组合有:
Llama3.1-8B->Llama3.2-1B
、
Mistral7B->Danube3-500M, Danube2-1.8B
、
Llama2-13B->Llama2-7B
;文中使用的指令微调数据集为
Deita-10K
,使用的偏好数据集为:
DPO-MIX-7K
和
HelpSteer2
。
实验结果如下:
实验结果表明,
DCKD
和
ADPA
显著优于基线方法(如
DPO
、
SimPO
、
VanillaKD
等)。
以
LLaMA-3.2-1B
为例,在
DPO-MIX-7K
上,
DCKD
和
ADPA
分别比
DPO
提升了
0.10
和
0.48
的
MT-Bench
评分,而
ADPA+
(
DCKD
与
ADPA
结合)进一步提升至
4.02
,胜率在
AlpacaEval
中达
53.8%
。在
Open LLM Leaderboard
上,
ADPA+
也展现出最佳平均性能(如
43.07 on HelpSteer2
)。
ADPA
为何有效?消融实验的启示
4.1 消融实验
ADPA 的优势函数中引入了参考教师,论文中对此进行了消融实验,尝试在优势函数中去掉
,仅保留