主要观点总结
文章介绍了扩散模型的发展及微调问题,重点阐述了上海交通大学胡腾博士联合腾讯优图实验室人员开发的高效微调方法SaRA。SaRA针对预训练扩散模型进行高效微调,通过非结构化反向传播降低内存消耗,并能最大化维护模型的先验信息。文章还提到了胡腾博士的学术背景和讲座信息。
关键观点总结
关键观点1: 扩散模型的快速发展及其核心问题
近年来扩散模型在多个任务上取得进展,但如何有效微调预训练的基础扩散模型成为核心问题。
关键观点2: 现有的微调方法及局限性
现有的微调方法如AFT、RFT和SFT各有不足,需要更高效的微调方法。
关键观点3: SaRA方法的特点和优势
SaRA是一种基于渐进稀疏低秩适应的高效微调方法,能够减少内存消耗,并能很好地学习到下游任务的知识。
关键观点4: 讲座信息和主讲人介绍
胡腾博士将参与「智猩猩AI新青年讲座」并主讲《扩散模型高效微调方法SaRA与显存占用优化》。胡腾博士是上海交通大学在读博士,主要从事图像、视频等可视媒体的内容生成研究。
正文
近年来扩散模型的快速发展,图像生成、视频生成、3D生成等任务取得了重大进展。然而一个核心问题也随之浮现:如何有效且高效地微调预训练的基础扩散模型,并将其应用于新任务。现有的微调方法可分为附加型微调方法(AFT)、重参数化微调方法(RFT)以及选择性微调方法(SFT)。AFT和RFT方法都需要针对不同模型进行特定设计,以及根据具体任务调整隐藏维度或秩值。而SFT方法不仅引入了较高的延迟,还对参数选择的超参数敏感,在效果和训练效率方面表现不佳。
针对上述问题,
上海交通大学在读博士胡腾联合腾讯优图实验室研究人员
提出了一种新颖的高效微调方法SaRA(Sparse Low-Rank Adaptation),其专门为预训练扩散模型设计,现已开源。该方法是基于渐进稀疏低秩适应的高效微调,利用基于核范数的低秩损失来有效防止模型过拟合,同时引入渐进训练策略,以充分利用无效参数,从而使模型在学习新知识的同时不影响其原有的泛化能力。
SaRA 的显著特点是其引入了非结构化反向传播策略,这使得它在对扩散模型微调过程中显著减少了内存消耗。通过将可训练参数分离为叶节点,使得模型的所有参数梯度能够流入少量的可训练参数中,避免了为整个参数矩阵保留梯度的需求,这大大简化了预训练模型微调的复杂性和工作量。
SaRA不仅实现了低内存消耗,还实现了很好的代码集成,只需要修改一行代码即可实现高效的扩散模型微调。结果表明,SaRA相较于其他微调方法能够更好地学习到下游任务的知识,并最大化维护模型的先验信息,其高效性、简便性和实用性,不仅解决了如何高效利用预训练扩散模型中无效参数的问题,还为未来在各种下游任务中应用扩散模型提供了新的可能性。
11月27日19点
,智猩猩邀请到
论文一作、上海交通大学在读博士胡腾
参与「智猩猩AI新青年讲座」255讲,主讲《扩散模型高效微调方法SaRA与显存占用优化》。
师从易冉助理教授,从事图像、视频等可视媒体的内容生成研究,主要研究图像、视频可控生成。入选首届《中国电子学会-腾讯博士生科研激励计划》。目前以第一作者、学生第一作者、共同第一作者在CCF A类会议或期刊上发表高水平论文8篇,共计发表10篇高水平论文。
《
扩散模型高效微调方法SaRA与显存占用优化
》
1、现有扩散模型微调方法及局限性
2、扩散模型中无效参数分析及潜在有效性
3、基于无效参数重用的微调方法
4、通过非结构化反向传播降低微调显存
5、基础模型提升与下游任务微调
《
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-rank Adaptation
》