专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
51好读  ›  专栏  ›  计算机视觉研究院

当目标检测遇上扩散模型,DiffYOLO、DiffusionDet的改进算法!

计算机视觉研究院  · 公众号  ·  · 2024-08-12 10:30

正文

近两年AIGC的爆发,掀起了视觉领域的范式革命, 最先进的生成模型Diffusion Models,也开始运用至目标检测任务中, 多项工作获得了重点关注,比如,基于YOLO和扩散模型的抗噪声目标检测模型 DiffYOLO,使用了核心算法 DDPM提取特征;CVPR最新收录的扩散模型检测工作DiffusionDet,在推理阶段利用了 DDPM加速采样的DDIM 去除马尔可夫链后,速度提升将近百倍!

为了帮助大家掌握扩散模型必备算法,研梦非凡于 8月15日晚(周四), 邀请了 大模型资深算法工程师魏导师, 独家详解顶会论文 《Denoising Diffusion Implicit Models(DDIM)》 (AI前沿直播课NO.61), 从深度生成模型回顾,到DDPM(NIPS'20)的优缺点,再 重点讲解DDIM(ICLR'21)的算法研究、实验分析, 1节课吃透 DDIM架构原理 ,get论文改进和求职知识点!

👇🏻 扫描二维码找助教 0元 预约 直播课!

凡预约即可免费领取 100篇扩散模型论文(43篇CVPR'24 最新收录 +文末还有算力等科研福利!


直播课内容概览

01 论文引言

  1. 深度生成模型:传统和迭代
  2. DDPM与GAN的效率差距
  3. DDIM由此诞生

02 研究背景

  1. DPM(扩散模型)
  • 三种生成模型:GAN、VAE和基于流的模型
  • 扩散模型:原理和特点
  • 以上模型的架构对比
  1. DDPM(去噪扩散概率模型)
  • 基于马尔可夫扩散过程的模型
  • 优缺点:生成质量高,但耗费时间长

03 DDIM—相关工作

  1. DDPM和NCSNs密切相关
  2. DDIM是一种隐式生成模型
  • 具有某些类似GANs和可逆流的属性
  • 具有连续深度的神经网络

04 DDIM—算法研究(重点)

  1. 非马尔可夫前向过程的变分推理
  2. 非马尔可夫正向过程
  3. 生成过程与统一变分推理目标
  4. 从广义生成过程中抽样
  5. 去噪扩散隐式模型
  6. 加速生成过程
  7. 与关联神经网络的常微分方程

05 DDIM—实验分析(重点)

  1. 实验总览
  • DDIM在图像生成方面优于DDPM,速度提高了10-100倍
  • DDIM会保留高级图像特征,可直接从潜空间执行插值
  • DDIM还可用于编码从潜代码中重建它们的样本
  1. 样本质量和效率
  2. 样本的一致性
  3. 确定性生成过程中的插值
  4. 潜在空间重构

06 总结讨论

导师介绍

魏导师

大模型资深算法工程师,从事新能源汽车智能座舱语音对话高级算法研发工作,也担任过芯片公司模型训练推理框架和高性能计算工程师。

直播福利

参加本次直播的同学都将获得 1小时导师meeting的福利(助教+导师) 原价2999, 限时福利价 9.9元! 活动时间为 8月15日到8月31日。

ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松完成论文报告。

👇🏻 扫描二维码找助教 0元 预约 直播课!

凡预约即可免费领取 100篇扩散模型论文(43篇CVPR'24 最新收录 +文末还有算力等科研福利!


研梦非凡科研论文指导

如果你的研究方向/方法/idea是属于 CV全方向/NLP全方向/机器学习/深度学习及AI+金融、医疗、交通等方向, 如果你需要发 CCF A-C、SCI一区-四区、EI会议/EI期刊、毕业大论文、毕业设计等, 都可以来研梦非凡,匹配合适的科研指导。

研梦非凡可指导的研究方向

主流方向科研论文常用方法

研梦非凡现有idea

👇🏻 扫码找助教了解更多/验证自己的idea是否可行


研梦非凡科研论文指导方案

idea并不是直接拍脑门拍出来的,是一遍一遍实验、跑代码、改模型、思路修正的过程中产生的。 研梦非凡1V1定制化论文指导,和研梦导师一起找idea,研梦导师指导实验,共同解决数据问题。 授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!
<< >>>






请到「今天看啥」查看全文