专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
北京经信局  ·  事关人形机器人关键技术!这项新标准,已立项! ·  13 小时前  
北京经信局  ·  事关人形机器人关键技术!这项新标准,已立项! ·  13 小时前  
将门创投  ·  Talk预告|北京大学周嘉懿:Languag ... ·  昨天  
FM1031济南交通广播  ·  定了!我国载人月球车命名“探索” ... ·  昨天  
51好读  ›  专栏  ›  将门创投

Talk预告|香港大学吴太强:知识蒸馏该用前向KL还是后向KL?

将门创投  · 公众号  · 科技创业  · 2024-12-31 08:22

正文

本期为 TechBeat人工智能社区 653 线上Talk。

北京时间 1 月2日 (周四)20:00, 香港大学博士生 吴太强 的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题 是: 知识蒸馏该用前向KL还是后向KL? 届时他将 主要分析前向KL和后向KL两种散度的特性,并对未来可能的应用做展望。
Talk·信息
主题:知识蒸馏该用前向KL还是后向KL?
嘉宾:香港大学 · 博士生 - 吴太强
时间:北京时间 1 月2日(周四)20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/

长按识别二维码,一键预约TALK!


Talk·介绍
知识蒸馏作为 LLM 中常用的模型压缩方法,随着LLM 的参数变多而变得越来越受到关注。最通用的知识蒸馏方式就是使用 KL 散度来对齐教师与学生输出的概率分布。然而,KL 散度不具备对称性,前向 KL 散度与后向 KL 散度并不相等。本 Talk 主要分析两种散度的特性,并对未来可能的应用做展望。
Talk大纲
1. 背景:介绍知识蒸馏与 前向/后向 KL 散度

2. 动机:之前工作提出 RKL 比 FKL 更适合 LLM 的蒸馏,因为 FKL 是 mean-seeking,而 RKL 是 mode-seeking

3. 贡献:本 talk 从理论和实验两个角度来证明这两种 seeking 的现象并不成立。与此同时。拟合初期,FKL 侧重拟合分布的头部,RKL 侧重拟合分布的尾部。

4. 总结:基于发现的特性,介绍了被 COLING2025 接受的 Adaptive KL (AKL)方法,并给出未来可行的研究方向。


Talk·预习资料

论文链接:

https://arxiv.org/abs/2404.02657

代码链接:

https://github.com/wutaiqiang/LLM_KD_AKL

博客:

https://zhuanlan.zhihu.com/p/690748958


Talk·提问交流

在Talk界面下的 【交流区】 参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

吴太强 ‍‍‍‍‍‍‍‍‍

香港大学 · 博士生
吴太强 , 本科毕业于清华自动化系, 硕士毕业于清华深圳国际研究生院, 师从杨余久教授, 目前在香港大学电机电子工程系攻读博士学位, 主要研究方向是高效大语言模型, 包括模型压缩与参数高效微调. 曾在 NAACL, EMNLP, WSDM, COLING 等顶会发表多篇一作论文。

个人主页:

https://www.techbeat.net/grzytrkj?id=9169



长按识别二维码,一键预约TALK!







请到「今天看啥」查看全文