专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  使用PyTorch实现GPT-2直接偏好优化 ... ·  3 天前  
人工智能与大数据技术  ·  苹果 AI 遭遇「滑铁卢」?73% ... ·  4 天前  
数据派THU  ·  【AAAI2025】学习解耦等变表示以实现显 ... ·  5 天前  
数据派THU  ·  大数据能力提升项目|学生成果展系列之二 ·  4 天前  
软件定义世界(SDX)  ·  文字实录 | 国家数据局举行专题新闻发布会 ... ·  4 天前  
51好读  ›  专栏  ›  数据派THU

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

数据派THU  · 公众号  · 大数据  · 2025-01-05 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。


知识蒸馏(KD)已成为压缩大规模语言模型(LLM)的一种流行技术。现有的KD方法受限于教师模型和学生模型之间必须使用相同的标记器(即词汇表),这限制了其在处理不同架构家族的LLM时的通用性。本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。我们的方法通过使用多种成本矩阵,在标记级和序列级对教师和学生的logit分布进行对齐,从而消除了维度或逐标记符对应的需求。
在标记级,MultiLevelOT通过联合优化序列中的所有标记,整合了全局和局部信息,从而增强了鲁棒性。在序列级,我们通过Sinkhorn距离高效捕捉logits的复杂分布结构,该距离近似于Wasserstein距离,用于度量分布的散度。通过在抽取式问答、生成式问答和摘要等任务上的大量实验证明,MultiLevelOT在各种设置下优于现有的跨标记器KD方法。我们的 approach 对不同的学生和教师模型在不同的模型家族、架构和参数规模下表现出较强的鲁棒性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU