扩散模型最近可是出了不少颠覆性成果,其中最亮眼的属AI2惊艳发布的OneDiffusion,一种突破性多功能大规模扩散模型,它可以无缝支持多任务生成与理解,效果媲美Flux.1,参数量却缩减了5倍!
作为近两年最火热的方向,扩散模型相关的研究可以说是顶会投稿的焦点(尤其CVPR),其中在下游任务中的应用更甚。
如今,下游任务大多通过Finetuning、Training-free这两种方式来使用大规模文本图像扩散模型,这也是目前该方向的2大主流创新策略。
为方便感兴趣的同学,深度之眼本次邀请了
顶会顶刊审稿人谱老师
,为我们开发
《大规模文本图像扩散模型在下游任务中的应用》
课程,以
论文讲解+代码领读
的方式,用
4节课
的时间,手把手带领大家掌握扩散模型的关键技术,学习如何基于文本和图像进行个性化定制生成。
4节课
仅需
10元
👇扫码下单立享多重福利
购买后记得添加课程老师领取资料~
课程亮点
课程大纲
本课程聚焦大规模文本图像扩散模型在下游任务中的应用。
先通过结合论文讲解及代码领读的方式,带大家快速掌握Stable Diffusion系列模型的内核。
然后针对Finetuning和Training-free这两种主流方式,分别讲解两篇经典的应用文章,帮助大家根据自己的需求改进,以及应用大模型。
第1节课:论文讲解
High-resolusion image synthesis with latent diffusion models
CVPR 2022:大规模文本图像系列模型基础
论文链接:https://arxiv.org/abs/2112.10752
第2节课:代码讲解
High-resolusion image synthesis with latent diffusion models
代码链接:https://github.com/CompVis/latent-diffusion
第3节课:论文及代码讲解
Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation
CVPR 2023:基于文本及图像定制化进行定制化生成
论文链接:https://arxiv.org/abs/2208.12242
代码链接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers/examples/dreambooth
第4节课:论文及代码讲解
Training-Free Layout Control with Cross-Attention Guidance
CVPR 2023:基于文本及空间约束实现可控生成
论文链接:https://arxiv.org/abs/2304.03373
代码链接:https://github.com/silent-chen/layout-guidance
老师介绍
谱老师
🧑🎓【简介】
中国科学院大学计算机科学博士,计算机视觉方向,主要研究方向为轻量级网络结构,生成式模型。在国内知名高校担任特别助理研究员,曾在微软亚研,阿里及腾讯进行科研工作。
📚【科研论文/审稿人】
在计算机视觉和人工智能国际会议/期刊发表论文17篇,其中顶会顶刊7篇(一作及通讯6篇),包括CVPR/NeurIPS/AAAI/MM以及TPAMI。并担任CVPR/ICCV/ECCV/ICML/NeurIPS/TIP/TPAMI/等审稿人。