本期为
TechBeat人工智能社区
第
653
期
线上Talk。
北京时间
1
月2日
(周四)20:00,
香港大学博士生
吴太强
的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题
是:
“
知识蒸馏该用前向KL还是后向KL?
”
,
届时他将
主要分析前向KL和后向KL两种散度的特性,并对未来可能的应用做展望。
长按识别二维码,一键预约TALK!
知识蒸馏作为 LLM 中常用的模型压缩方法,随着LLM 的参数变多而变得越来越受到关注。最通用的知识蒸馏方式就是使用 KL 散度来对齐教师与学生输出的概率分布。然而,KL 散度不具备对称性,前向 KL 散度与后向 KL 散度并不相等。本 Talk 主要分析两种散度的特性,并对未来可能的应用做展望。
1. 背景:介绍知识蒸馏与 前向/后向 KL 散度
2. 动机:之前工作提出 RKL 比 FKL 更适合 LLM 的蒸馏,因为 FKL 是 mean-seeking,而 RKL 是 mode-seeking
3. 贡献:本 talk 从理论和实验两个角度来证明这两种 seeking 的现象并不成立。与此同时。拟合初期,FKL 侧重拟合分布的头部,RKL 侧重拟合分布的尾部。
4. 总结:基于发现的特性,介绍了被 COLING2025 接受的 Adaptive KL (AKL)方法,并给出未来可行的研究方向。
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2404.02657
代码链接:
https://github.com/wutaiqiang/LLM_KD_AKL
博客:
https://zhuanlan.zhihu.com/p/690748958
在Talk界面下的
【交流区】
参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
吴太强
, 本科毕业于清华自动化系, 硕士毕业于清华深圳国际研究生院, 师从杨余久教授, 目前在香港大学电机电子工程系攻读博士学位, 主要研究方向是高效大语言模型, 包括模型压缩与参数高效微调. 曾在 NAACL, EMNLP, WSDM, COLING 等顶会发表多篇一作论文。
个人主页:
https://www.techbeat.net/grzytrkj?id=9169