专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
陕西商务  ·  2月1日至2月7日陕西生活必需品市场运行分析 ·  11 小时前  
陕西商务  ·  2月1日至2月7日陕西生活必需品市场运行分析 ·  11 小时前  
西安头条  ·  陕西一学校拟晋升 ·  昨天  
西安头条  ·  陕西一学校拟晋升 ·  昨天  
896汽车调频  ·  陕西今年将建成1条高铁线! ·  2 天前  
陕西省文化和旅游厅  ·  老陕专享!少华山冬日免票狂欢!一键穿越冰雪秘境→ ·  3 天前  
陕西省文化和旅游厅  ·  老陕专享!少华山冬日免票狂欢!一键穿越冰雪秘境→ ·  3 天前  
51好读  ›  专栏  ›  深度之眼

新版扩散模型惊艳登场!或成CVPR 2025最大惊喜!

深度之眼  · 公众号  ·  · 2025-01-16 19:22

正文

扩散模型最近可是出了不少颠覆性成果,其中最亮眼的属AI2惊艳发布的OneDiffusion,一种突破性多功能大规模扩散模型,它可以无缝支持多任务生成与理解,效果媲美Flux.1,参数量却缩减了5倍!

作为近两年最火热的方向,扩散模型相关的研究可以说是顶会投稿的焦点(尤其CVPR),其中在下游任务中的应用更甚。 如今,下游任务大多通过Finetuning、Training-free这两种方式来使用大规模文本图像扩散模型,这也是目前该方向的2大主流创新策略。

为方便感兴趣的同学,深度之眼本次邀请了 顶会顶刊审稿人谱老师 ,为我们开发 《大规模文本图像扩散模型在下游任务中的应用》 课程,以 论文讲解+代码领读 的方式,用 4节课 的时间,手把手带领大家掌握扩散模型的关键技术,学习如何基于文本和图像进行个性化定制生成。

4节课 仅需 10元
👇扫码下单立享多重福利

购买后记得添加课程老师领取资料~

课程亮点

  • 前沿技术速通
  • 深度解析与实战结合
  • 两种主流改进策略
  • 定制化与可控生成

课程大纲

本课程聚焦大规模文本图像扩散模型在下游任务中的应用。

先通过结合论文讲解及代码领读的方式,带大家快速掌握Stable Diffusion系列模型的内核。

然后针对Finetuning和Training-free这两种主流方式,分别讲解两篇经典的应用文章,帮助大家根据自己的需求改进,以及应用大模型。

第1节课:论文讲解

High-resolusion image synthesis with latent diffusion models

CVPR 2022:大规模文本图像系列模型基础

论文链接:https://arxiv.org/abs/2112.10752

第2节课:代码讲解

High-resolusion image synthesis with latent diffusion models

代码链接:https://github.com/CompVis/latent-diffusion

第3节课:论文及代码讲解

Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation

CVPR 2023:基于文本及图像定制化进行定制化生成

论文链接:https://arxiv.org/abs/2208.12242

代码链接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers/examples/dreambooth

第4节课:论文及代码讲解

Training-Free Layout Control with Cross-Attention Guidance

CVPR 2023:基于文本及空间约束实现可控生成

论文链接:https://arxiv.org/abs/2304.03373

代码链接:https://github.com/silent-chen/layout-guidance

老师介绍

谱老师

🧑‍🎓【简介】 中国科学院大学计算机科学博士,计算机视觉方向,主要研究方向为轻量级网络结构,生成式模型。在国内知名高校担任特别助理研究员,曾在微软亚研,阿里及腾讯进行科研工作。

📚【科研论文/审稿人】 在计算机视觉和人工智能国际会议/期刊发表论文17篇,其中顶会顶刊7篇(一作及通讯6篇),包括CVPR/NeurIPS/AAAI/MM以及TPAMI。并担任CVPR/ICCV/ECCV/ICML/NeurIPS/TIP/TPAMI/等审稿人。







请到「今天看啥」查看全文