专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
乌鸦预告片  ·  豆瓣2024最佳冷门片!9.1高分《还有明天 ... ·  14 小时前  
乌鸦预告片  ·  豆瓣2024最佳冷门片!9.1高分《还有明天 ... ·  14 小时前  
现代快报  ·  断货!全线售罄 ·  3 天前  
现代快报  ·  断货!全线售罄 ·  3 天前  
51好读  ›  专栏  ›  深度之眼

顶会审稿人谈“扩散模型”论文中稿“潜规则”

深度之眼  · 公众号  ·  · 2025-02-11 18:23

正文

扩散模型最近可是出了不少颠覆性成果,其中最亮眼的当属谢赛宁新作——测试时计算Scaling Law ,性能飙到天花板! 生生为扩散模型开辟了一个全新的赛道!

在 ImageNet 数据集上,使用不同方法时,模型在 FID(越低越好)和 IS(越高越好)上的性能变化。

作为近两年最火热的方向,扩散模型相关的研究可以说是顶会投稿的焦点(尤其CVPR),其中在下游任务中的应用更甚。 如今,下游任务大多通过Finetuning、Training-free这两种方式来使用大规模文本图像扩散模型,这也是目前该方向的2大主流创新策略。

为方便感兴趣的同学,深度之眼本次邀请了 顶会顶刊审稿人谱老师 ,为我们开发 《大规模文本图像扩散模型在下游任务中的应用》 课程,以 论文讲解+代码领读 的方式,用 4节课 的时间,手把手带领大家掌握扩散模型的关键技术,学习如何基于文本和图像进行个性化定制生成。

4节课 仅需 10元
👇扫码下单立享多重福利

购买后记得添加课程老师领取资料~

课程亮点

  • 前沿技术速通
  • 深度解析与实战结合
  • 两种主流改进策略
  • 定制化与可控生成

课程大纲

本课程聚焦大规模文本图像扩散模型在下游任务中的应用。

先通过结合论文讲解及代码领读的方式,带大家快速掌握Stable Diffusion系列模型的内核。

然后针对Finetuning和Training-free这两种主流方式,分别讲解两篇经典的应用文章,帮助大家根据自己的需求改进,以及应用大模型。

第1节课:论文讲解

High-resolusion image synthesis with latent diffusion models

CVPR 2022:大规模文本图像系列模型基础

论文链接:https://arxiv.org/abs/2112.10752

第2节课:代码讲解

High-resolusion image synthesis with latent diffusion models

代码链接:https://github.com/CompVis/latent-diffusion

第3节课:论文及代码讲解

Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation

CVPR 2023:基于文本及图像定制化进行定制化生成

论文链接:https://arxiv.org/abs/2208.12242

代码链接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers/examples/dreambooth

第4节课:论文及代码讲解

Training-Free Layout Control with Cross-Attention Guidance

CVPR 2023:基于文本及空间约束实现可控生成

论文链接:https://arxiv.org/abs/2304.03373

代码链接:https://github.com/silent-chen/layout-guidance

老师介绍

谱老师

🧑‍🎓【简介】 中国科学院大学计算机科学博士,计算机视觉方向,主要研究方向为轻量级网络结构,生成式模型。在国内知名高校担任特别助理研究员,曾在微软亚研,阿里及腾讯进行科研工作。







请到「今天看啥」查看全文