专栏名称: 计算机视觉life

兼具系统性、严谨性、易读性，分享计算机视觉、机器学习、人工智能及相关领域前沿资讯、技术干货、产业理解。

2024年了diffusion还有什么可做的？

计算机视觉life · 公众号 · · 2024-06-07 11:08

正文

点击预约直播，开播自动提醒，不错过~

来源：知乎，原文链接：https://www.zhihu.com/question/647875443?utm_psn=1780912809950973952

动手实现3DGS SLAM：3DGS + GICP +Unc + GTSAM，性能逼近与超越SplaTAM！

15讲全部上线！2024最炸裂的新技术！3D Gaussian Splatting（全网独家）

作者：叫我Alonzo就好了

纯属brainstorm，欢迎大家一起探讨。我会尽可能举一些具体例子来分析。部分点在我之前的一个相关回答中也有，大家可以移步参考：

https://www.zhihu.com/question/647244779/answer/3422163670

这个回答对之前的回答做进一步的补充完善。我们通过“ 数据、模型、优化 ”三个角度，再加上能做的“ 任务 ”，可以将diffusion models的全流程解剖一下，然后一个一个来看， 个人比较看好的方向加粗标出 ：

一、数据

“数据”角度主要还是关注生成图像的一些特性，比如说生成图像的resolution、domain等等。

1、生成图像分辨率

关注生成图像的“分辨率”其实就是做“High-Resolution Image Synthesis”，个人一直认为属于是“ 简单但难解的工程问题 ”，原因很简单，分辨率成倍增大，生成模型要生成的像素点就需要以2次方倍的速度增加。

经典的例子一般通过 优化压缩模型 或者是采用“ 生成 + 超分 ”来做。

对于前者来说，比较经典的例子就是Stable Diffusion了，将DDPM在pixel space的diffusion process直接搬到VQGAN的隐空间里做，大家都很熟悉了，这里就不再展开。

个人感觉这里一个可能的点是怎样优化压缩模型， 采用更激进的下采样策略，同时又能保证压缩模型带来的精度损失在可接受的范围内 ，来实现更高分辨率的生成。举个具体例子，Stable Diffusion的VQGAN目前是将512×512的图像，压缩至64×64的latent feature（下采样8倍），假设我们能够拿到这样一个“超级压缩模型”，能够实现512×512到16×16（下采样32倍），那么直接拿Stable Diffusion这一套去用，理论上就能实现2048×2048的更高分辨率生成。

“ 生成 + 超分 ”的范式可以关注近期清华 + 智谱AI做的Cogview 3，目前已经能做到最高2048×2048的生成，超分阶段采用了Relay Diffusion，Relay Diffusion是关于diffusion models的noise scheduling来增强高分辨率生成的工作，挺有意思的，而noise scheduling又属于比较小众的赛道，这一块也还有研究空间。

关于Relay Diffusion以及Cogview 3的解析，可以参考我的文章：

https://zhuanlan.zhihu.com/p/686899891

2、生成特定领域图像

这一块其实涉猎面就挺广的，“特定领域”（specific domain）指的可以是特定“美感”的图片，也可以是灰度图像、线稿图、医疗图像这类专业领域的图片。近期的Playground v2.5其实也是基于这个motivation开展工作的，对比证明了SDXL生成“特定背景下”的图片仍然面临困难：

能做的点，一方面是方法，虽然说Civitai上面众多的SD插件已经证明了LoRA微调是比较有效的方案，但是 training-free solution 还可以研究；另一方面就是 生成什么domain的图像 ，这就涉及这样做具体有什么应用价值，以及故事应该怎么讲的问题。

近期有一些做生成医疗图像的工作，尚不清楚其具体应用价值，不过也一同分享出来，有需要的朋友可以参考。例如LLM-CXR：

MedXChat：

二、模型

模型上主要还是按照现有主流latent diffusion models的设计，分为压缩模型、网络架构、文本编码三块，加上模型采样过程的优化。

1、压缩模型

压缩模型本质是一个 图像压缩 问题，即 怎样尽可能多地节约数据容量，同时又能够保证数据精度的损失可以接受 。正是因为这样，懂压缩模型的人其实相对较少，怎样能结合生成的特点设计压缩模型，其实还有较大研究空间。

近期的一些相关研究，例如Wuerstchen， 提出级semantic compression将图像在像素空间的信息加入到latent diffusion models中 ：

另外近期的Stable Diffusion 3也在压缩模型上做出了改进，将VQGAN latent feature的channel数量增大了， 从而减少压缩模型编码-解码过程中的精度损失 ，其重构性能在多个指标上都有显著提升：

尽管如此，现有的改进都偏工程化，压缩模型方面仍有较大的改进空间。关于Stable Diffusion 3的具体分析，可以参考我的往期文章：

https://zhuanlan.zhihu.com/p/685457842

2、网络架构

网络架构方面不得不提Diffusion Transformer，既然2024年初OpenAI的Sora、StabilityAI的Stable Diffusion 3都不约而同采用了这一架构；同时，PixArt系列的工作也一直采用的是这一架构，更加证明了其可行性。 这些AI巨头的动作势必会带动一系列基于Diffusion Transformer的工作 。

关于Diffusion Transformer的具体解读，可以参考我的往期文章：

https://zhuanlan.zhihu.com/p/684448966

3、文本编码

文本编码这一块其实是个人比较看好的发展方向，因为目前NLP社区大语言模型的发展也非常快，而大多数diffusion models还是沿用以往工作的CLIP或者T5-XXL来做文本编码。 如何将LLM跟diffusion models做结合，以及结合后有什么应用价值 ，目前的工作还不多，例子可以参考ACM MM 2024的SUR-Adapter：

另外值得一提的是，在DALL-E 3的带领下，Re-captioning基本上已成为了现有方法的标配，Cogview 3更是借助GPT-4V的多模态能力通过Visual QA的方式升级了Re-captioning的设计，随着GPT系列多模态能力的进一步增强，通过对GPT做一些prompt engineering拿到更多文本数据，也还大有文章可做。

补充：“Diffusion + LLM”目前工作也还不多，可能是因为同时需要懂NLP和CV，有一定的技术门槛，具体可以参考我的文章：

https://zhuanlan.zhihu.com/p/687482566

4、采样

采样主要考虑两个方面，一个 提升采样质量 ，二是 加速采样 。

第一点属于理论性要求比较高的工作，参考Classifier Guidance和Classifier-Free Guidance，有一定研究难度，但是idea如果work的话也具有巨大的普适价值。

第二点其实是目前主流的趋势，基本上都是基于Progressive Distillation来做。具体工作可以参考：SDXL-Lightning、Stable Cascade、SDXL Turbo、Cogview 3等等，具体不再过多展开。

关于Diffusion Distillation，可以参考我的往期回答：

https://www.zhihu.com/question/646919153/answer/3420804334

三、优化

优化方面个人认为其实也是大有可为的，现有方法大多还是沿用标准的MSE loss，而NLP社区LLM在强化学习方面的研究已经很多了，其实其中可以借鉴的点还比较多。

1、对齐人类特定偏好

说到LLM结合强化学习，大家第一印象想到的肯定是RLHF。事实上RLHF能做的事情有很多，可以增强样本质量、跟人类偏好做对齐，甚至是跟特定领域对齐，做domain adaptation，等等。

而反观图像生成社区，diffusion models跟强化学习结合的工作其实还不多，比较有名的工作可以参考DDPO。这方面由于我对强化学习不太熟悉，仅做分享，但从LLM研究的视角来看，在scaled up diffusion models的大趋势下，RLHF想必一定也能有它的用武之地。

2、推理

推理方面是个人感觉比较有意思的，相关的工作也还不多。例如名字比较有趣的MiniGPT-5，同样也是“ LLM + Diffusion ”的工作，可以看下它能做的一个例子：

为什么说“推理”值得去做 ？个人认为效果如果能够实现图像维度的信息推理，那么就将In-Context Learning又上升了一个高度，具体能做的事情其实很多，比方说 Text-to-Comic Generation ，能够生成漫画（如果一致性能保持好的话）； Storybook Generation ，等等。这些任务如果做得足够好，或许会有新的文生图任务定义，甚至能产生可观的商业价值。

四、任务

任务上更多的是其他数据模态的生成，或者是文生图的任务变式来考虑。

1、视频生成

视频生成自然不用多说了，年初OpenAI放出的Sora，势必会带来一个视频生成的风口，带动一系列这方面的研究。另一方面，根据个人的调研结果，目前视频生成的工作还不多，仍有较大挖掘空间。关于视频生成的顶会文章，可以参考我GitHub repo收录的paper list：

https://github.com/AlonzoLeeeooo/awesome-video-generation

2、Instruction-Based Editing

Instruction-Based Editing其实属于文生图的一个任务变式，这一任务自从CVPR 2022的InstructPix2Pix之后，连续两年的CVPR都收录了大约30篇左右的相关工作，而InstructPix2Pix在两年之内也是收获了小600个引用，足以证明这一方向的价值。其本质原理其实也类似前文中说到的“ 推理 ”。

InstructPix2Pix中展示的Instruction-Based Editing的结果例子

关于Instruction-Based Editing的具体研究，可以参考我的往期回答：

https://www.zhihu.com/question/647418577/answer/3423639220

3、Diffusion Models for NLP

目前从Transformer盛行的NLP社区来看，diffusion models for NLP绝对是一个可以深挖的点，具体可以参考我的回答：

https://www.zhihu.com/question/558525517/answer/3437058958

作者：AI 产品经理

Diffusion 才刚开始啊，还什么都不是呢……

TMD

Stable Diffusion的核心研究团队就确认已经集体辞职啦！

这其中包括了论文的第一作者Robin Rombach和共同第一作者Andreas Blattmann，以及另一位作者Dominik Lorenz。

这一消息是由Stability AI的首席执行官Emad Mostaque在一次全体员工会议上宣布的。应该就是实锤了……

然后：Stability AI CEO @EMostaque 也辞职啦！去做去中心化人工智能啦！

就是尼玛那种没有核心云，全靠本地算力和分布式的云维护数据，然后参数共享的 AI……

卧槽，这东西是每个 “AI 降临派”的梦想啊……

他们倒是去实现梦想了，

却给Stability AI 资养的 Stble Diffusion 留下了一个巨大的烂摊子……

现在就剩下一毛不拔的闭源的 MJ 抽血啦……

Inflection AI 刚被微软挤兑死， Stability AI 这个稳定 AI 也不稳定啦！直接自杀啦！

但是一直追随稳定 AI 的群众表示情绪稳定……

我们归拢归拢……这个社区还需要做点啥……快点挑起大旗接着干啊，别黄摊了……

1、多模态的应用：

怎么样结合文本和图像生成，就是类似于 Sketch-Guided Text-to-Image Diffusion Models 这种的，还有目前 Sora 的探索方向，这不都是在研究吗？

Sora 这方向，不一定就是终极形态啊，乍一看挺惊艳，但是细细一想，是不是跑偏了也不一定啊，这尼玛成本不说，而且路线太 AI 了。就是用在元宇宙上都有点“虚”，更别说普通的基础应用了。

而且，现在全行业押宝 Transformer ，大有一统 diffusion 的意思，是不是太费钱费电了？

先看看 GPT-5 和谷歌的效果吧

2、对自然语言的理解

扩散模型在图像生成任务中超越了传统的生成对抗网络（GAN），并且在生成高质量图像方面取得了显著的进展。

但是，这一轮生成式 AI 之所以窜出来这么快，就是“对理解层的果断放弃”啊，简单点说，就是不使用提示词就不能理解人类啊啊啊啊！

搞得人类不能训练 AI 就要训练自己啊！

搞自然语言处理的人还要推“提示词工程”，这 TMD 不是全行业的耻辱吗！

不用“中英文语言翻译”了，却要学习“人类和 AI 语言翻译”，这 TM 正常吗？这行业还要不要脸了？

diffusion 应该用自然语言就能交互才对吧？

至少也应该做到Dall-E 的水平吧？

所以，这也是在 2824 年必须突破的。

3、加速和效率改进：

针对原始扩散模型采样速度慢的问题，大家不是也在探索如何加速扩散模型的采样过程，例如通过Analytic-DPM、Extended-Analytic-DPM和DPM-Solver等方法。

这也是 2024 年能做的啊

一定要趁着现在算力紧张的时候推动这个工作，否则，未来几年英伟达，谷歌，华为，一众大神发功，中美再来个贸易协定，互相采购。算力搞不好又过剩了，就没人在乎效率了，又错过了这个历史机遇。

4、训练方法的改进：

例如Diffusion ODE的极大似然训练

直接优化扩散潜在空间（DOODL）

最小信噪比加权策略（Min-SNR-γ）

自注意力引导（SAG

扩散模型的量化（Q-Diffusion）

SVDiff：紧凑参数空间的扩散微调

DiffFit：简单参数高效的微调

扩散概率模型基于最优传输（DPM-OT）

这其实不用多说，需要改进的还有很多，只是很多朋友自己就“架炉子炼丹”，显卡呼呼的冒烟，肯定有得是人着急和关注这些事，不用强调。

5、可控生成：

研究如何生成可控的输出，Controllable Generation 做不好，这 Diffusion 也容易走进死胡同里呀，

例如通过EGSDE（Efficient Guided Sampling for Diffusion Models）等方法来实现对生成内容的更精细控制。

文本引导的生成有没有更接近自然语言的方法？通过迭代修改文本到图像扩散模型的一个额外输入token的嵌入向量，将生成的图像朝着给定的目标类别进行导引，这目前也只有 Dall-E 做的好啊，其他都不行。不过 Dall-E “功夫在诗外”

类别或属性引导：通过使用类别标签或属性描述来引导扩散模型，可以生成具有特定类别或属性的图像。例如，可以在带类标签的数据集上训练扩散模型，或者使用预训练的分类器作为引导信号，以提高生成图像的准确性和质量。

编辑和微调技术：在生成过程中，可以使用编辑技术对特定区域或特征进行微调，以满足用户的特定需求。包括但不限于通过在生成过程中引入蒙版（Mask），可以遮盖或修改图像的某些部分，从而实现更精细的控制。

条件扩散模型：就是Conditional Diffusion Models，通过在训练和生成过程中引入额外的条件信息，如文本、类别标签或其他模态的输入，来控制生成过程。

还有交互式生成：根据各种输入进行迭代优化。这个得跟“多模态”一起玩儿。没“多模态”就没啥可交互的东西。

所以又说回来多模态引导：文本、图像、音频啊，我看日本还有个变态的，根据气味的，来以实现跨模态的可控生成。这个“日本气味生成的问题”，刚才 @白白小白问了，我就单独把气味生成这个事情放在文章最后说几句。

6、理论建立和算法改进：

所以，这个事情肯定不是一个人一家公司或者一个团队能做成的，整个行业都要从理论和算法的角度对扩散模型的能力进行分析，并建立基本的共识， 这样才能确保所有公司“打的是同一个副本”，防止最后散沙一片。每个公司做成的事情，最后能拼接成一个统一的地图 。

我为了这个事还弄了一本书，重新学数学，然而我这个岁数精力已经不足了，天天烦心事太多，已然无法集中注意力学习了。

7、与其他研究领域的结合：

毕竟，这东西最终是要拿来用的，不管是十年，二十年还是五十年，你不能和别人相结合。弄个空中楼阁，自己薅自己头发是不能飞起来的。

我刚才看 @CHAD 提到了一个 RF-Diffusion 的概念，我查了一下，这是在MobiCom '24会议上，刚提出的概念，利用时间-频率扩散模型（Time-Frequency Diffusion Model）来生成无线电信号。

RF-Diffusion: Radio Signal Generation via Time-Frequency DiffusionGuoxuan Chi, Zheng Yang, Chenshu Wu, Jingao Xu, Yuchong Gao, Yunhao Liu, and Tony Xiao HanIn Proceedings of the ACM MobiCom, 2024

论文地址：http://tns.thss.tsinghua.edu.cn/~jingao/publications/

大概意思是，RF-Diffusion的核心思想是将扩散模型（Diffusion Model）应用于无线信号的生成，以此来增强无线信号数据的多样性和丰富性。

我算是涨了见识了，所以要坚持写东西，做交流，这太重要了。

我并不懂这个领域，有人问就贴出来讨论，大家一定要充分讨论这事情靠谱不靠谱 @Beman

RF-Diffusion 大概的意思是说，在无线通信系统中，信号的多样性和复杂性对于提高系统性能、增强信号的鲁棒性以及提高频谱利用率等方面都至关重要。RF-Diffusion通过模拟信号在时间-频率域内的扩散过程，生成新的无线电信号样本。这种方法可以有效地扩充无线信号的数据集，尤其是在有限的实测数据情况下，通过数据增广技术可以提高无线通信系统的训练和测试效果。

我查了一下，RF-Diffusion可能涉及以下几个关键步骤，不过我水平有限，一知半解的先罗列出来：

信号表示：首先，需要将无线电信号转换为适合扩散模型处理的表示形式，例如将其转换为时频域的表示。

模型训练：使用大量的无线电信号样本来训练扩散模型，使其能够学习信号在时间-频率域内的统计特性

信号生成：训练完成后，模型可以生成新的信号样本，这些样本具有与训练数据类似的统计特性，但在细节上是独一无二的。

性能评估：生成的信号样本需要在无线通信系统中进行测试，以评估其对系统性能的影响，包括信号的可检测性、误码率、抗干扰能力等。也就是说， RF-Diffusion的研究为无线信号处理领域提供了一种新的数据增广方法。通过生成更多样化的信号样本，可以更好地模拟和应对实际无线环境中的各种情况，从而提高系统的整体性能和可靠性。