专栏名称: 计算机视觉life
兼具系统性、严谨性、易读性,分享计算机视觉、机器学习、人工智能及相关领域前沿资讯、技术干货、产业理解。
目录
相关文章推荐
CINNO  ·  三星Galaxy ... ·  昨天  
爱否科技  ·  疑似 OPPO Find N5 ... ·  3 天前  
长江云新闻  ·  缴税5千万!江西福彩开出2.5亿大奖 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉life

2024年了diffusion还有什么可做的?

计算机视觉life  · 公众号  ·  · 2024-06-07 11:08

正文

点击“ 计算机视觉life ”,选择“星标”

机器人AI干货第一时间送达

点击 预约直播,开播自动提醒,不错过~
来源:知乎,原文链接:https://www.zhihu.com/question/647875443?utm_psn=1780912809950973952

动手实现3DGS SLAM:3DGS + GICP +Unc + GTSAM,性能逼近与超越SplaTAM!

15讲全部上线!2024最炸裂的新技术!3D Gaussian Splatting(全网独家)

作者:叫我Alonzo就好了

纯属brainstorm,欢迎大家一起探讨。我会尽可能举一些具体例子来分析。部分点在我之前的一个相关回答中也有,大家可以移步参考:

https://www.zhihu.com/question/647244779/answer/3422163670

这个回答对之前的回答做进一步的补充完善。我们通过“ 数据、模型、优化 ”三个角度,再加上能做的“ 任务 ”,可以将diffusion models的全流程解剖一下,然后一个一个来看, 个人比较看好的方向加粗标出

一、数据

“数据”角度主要还是关注生成图像的一些特性,比如说生成图像的resolution、domain等等。

1、生成图像分辨率

关注生成图像的“分辨率”其实就是做“High-Resolution Image Synthesis”,个人一直认为属于是“ 简单但难解的工程问题 ”,原因很简单,分辨率成倍增大,生成模型要生成的像素点就需要以2次方倍的速度增加。

经典的例子一般通过 优化压缩模型 或者是采用“ 生成 + 超分 ”来做。

对于前者来说,比较经典的例子就是Stable Diffusion了,将DDPM在pixel space的diffusion process直接搬到VQGAN的隐空间里做,大家都很熟悉了,这里就不再展开。

Stable Diffusion的模型架构图

个人感觉这里一个可能的点是怎样优化压缩模型, 采用更激进的下采样策略,同时又能保证压缩模型带来的精度损失在可接受的范围内 ,来实现更高分辨率的生成。举个具体例子,Stable Diffusion的VQGAN目前是将512×512的图像,压缩至64×64的latent feature(下采样8倍),假设我们能够拿到这样一个“超级压缩模型”,能够实现512×512到16×16(下采样32倍),那么直接拿Stable Diffusion这一套去用,理论上就能实现2048×2048的更高分辨率生成。

生成 + 超分 ”的范式可以关注近期清华 + 智谱AI做的Cogview 3,目前已经能做到最高2048×2048的生成,超分阶段采用了Relay Diffusion,Relay Diffusion是关于diffusion models的noise scheduling来增强高分辨率生成的工作,挺有意思的,而noise scheduling又属于比较小众的赛道,这一块也还有研究空间。

Cogview 3的结果

关于Relay Diffusion以及Cogview 3的解析,可以参考我的文章:

https://zhuanlan.zhihu.com/p/686899891

2、生成特定领域图像

这一块其实涉猎面就挺广的,“特定领域”(specific domain)指的可以是特定“美感”的图片,也可以是灰度图像、线稿图、医疗图像这类专业领域的图片。近期的Playground v2.5其实也是基于这个motivation开展工作的,对比证明了SDXL生成“特定背景下”的图片仍然面临困难:

Playground v2.5的motivation

能做的点,一方面是 方法 ,虽然说Civitai上面众多的SD插件已经证明了LoRA微调是比较有效的方案,但是 training-free solution 还可以研究;另一方面就是 生成什么domain的图像 ,这就涉及这样做具体有什么应用价值,以及故事应该怎么讲的问题。

近期有一些做生成医疗图像的工作,尚不清楚其具体应用价值,不过也一同分享出来,有需要的朋友可以参考。例如LLM-CXR:

LLM-CXR的方法流程图

MedXChat:

MedXChat的方法流程图

二、模型

模型上主要还是按照现有主流latent diffusion models的设计,分为压缩模型、网络架构、文本编码三块,加上模型采样过程的优化。

1、压缩模型

压缩模型本质是一个 图像压缩 问题,即 怎样尽可能多地节约数据容量,同时又能够保证数据精度的损失可以接受 。正是因为这样,懂压缩模型的人其实相对较少,怎样能结合生成的特点设计压缩模型,其实还有较大研究空间。

近期的一些相关研究,例如Wuerstchen, 提出级semantic compression将图像在像素空间的信息加入到latent diffusion models中

Wuerstchen的方法流程图

另外近期的Stable Diffusion 3也在压缩模型上做出了改进,将VQGAN latent feature的channel数量增大了, 从而减少压缩模型编码-解码过程中的精度损失 ,其重构性能在多个指标上都有显著提升:

Stable Diffusion 3改进后VQGAN的重构性能

尽管如此,现有的改进都偏工程化,压缩模型方面仍有较大的改进空间。关于Stable Diffusion 3的具体分析,可以参考我的往期文章:

https://zhuanlan.zhihu.com/p/685457842

2、网络架构

网络架构方面不得不提Diffusion Transformer,既然2024年初OpenAI的Sora、StabilityAI的Stable Diffusion 3都不约而同采用了这一架构;同时,PixArt系列的工作也一直采用的是这一架构,更加证明了其可行性。 这些AI巨头的动作势必会带动一系列基于Diffusion Transformer的工作

Diffusion Transformer的模型架构图

关于Diffusion Transformer的具体解读,可以参考我的往期文章:

https://zhuanlan.zhihu.com/p/684448966

3、文本编码

文本编码这一块其实是个人比较看好的发展方向,因为目前NLP社区大语言模型的发展也非常快,而大多数diffusion models还是沿用以往工作的CLIP或者T5-XXL来做文本编码。 如何将LLM跟diffusion models做结合,以及结合后有什么应用价值 ,目前的工作还不多,例子可以参考ACM MM 2024的SUR-Adapter:

SUR-Adapter的模型架构图

另外值得一提的是,在DALL-E 3的带领下,Re-captioning基本上已成为了现有方法的标配,Cogview 3更是借助GPT-4V的多模态能力通过Visual QA的方式升级了Re-captioning的设计,随着GPT系列多模态能力的进一步增强,通过对GPT做一些prompt engineering拿到更多文本数据,也还大有文章可做。

补充 :“Diffusion + LLM”目前工作也还不多,可能是因为同时需要懂NLP和CV,有一定的技术门槛,具体可以参考我的文章:

https://zhuanlan.zhihu.com/p/687482566

4、采样

采样主要考虑两个方面,一个 提升采样质量 ,二是 加速采样

第一点属于理论性要求比较高的工作,参考Classifier Guidance和Classifier-Free Guidance,有一定研究难度,但是idea如果work的话也具有巨大的普适价值。

第二点其实是目前主流的趋势,基本上都是基于Progressive Distillation来做。具体工作可以参考:SDXL-Lightning、Stable Cascade、SDXL Turbo、Cogview 3等等,具体不再过多展开。

关于Diffusion Distillation,可以参考我的往期回答:

https://www.zhihu.com/question/646919153/answer/3420804334

三、优化

优化方面个人认为其实也是大有可为的,现有方法大多还是沿用标准的MSE loss,而NLP社区LLM在强化学习方面的研究已经很多了,其实其中可以借鉴的点还比较多。

1、对齐人类特定偏好

说到LLM结合强化学习,大家第一印象想到的肯定是RLHF。事实上RLHF能做的事情有很多,可以增强样本质量、跟人类偏好做对齐,甚至是跟特定领域对齐,做domain adaptation,等等。

而反观图像生成社区,diffusion models跟强化学习结合的工作其实还不多,比较有名的工作可以参考DDPO。这方面由于我对强化学习不太熟悉,仅做分享,但从LLM研究的视角来看,在scaled up diffusion models的大趋势下,RLHF想必一定也能有它的用武之地。

2、推理

推理方面是个人感觉比较有意思的,相关的工作也还不多。例如名字比较有趣的MiniGPT-5,同样也是“ LLM + Diffusion ”的工作,可以看下它能做的一个例子:

MiniGPT-5的结果例子

为什么说“推理”值得去做 ?个人认为效果如果能够实现图像维度的信息推理,那么就将In-Context Learning又上升了一个高度,具体能做的事情其实很多,比方说 Text-to-Comic Generation ,能够生成漫画(如果一致性能保持好的话); Storybook Generation ,等等。这些任务如果做得足够好,或许会有新的文生图任务定义,甚至能产生可观的商业价值。

四、任务

任务上更多的是其他数据模态的生成,或者是文生图的任务变式来考虑。

1、视频生成

视频生成自然不用多说了,年初OpenAI放出的Sora,势必会带来一个视频生成的风口,带动一系列这方面的研究。另一方面,根据个人的调研结果,目前视频生成的工作还不多,仍有较大挖掘空间。关于视频生成的顶会文章,可以参考我GitHub repo收录的paper list:

https://github.com/AlonzoLeeeooo/awesome-video-generation

Video Generation GitHub Repo部分截图

2、Instruction-Based Editing

Instruction-Based Editing其实属于文生图的一个任务变式,这一任务自从CVPR 2022的InstructPix2Pix之后,连续两年的CVPR都收录了大约30篇左右的相关工作,而InstructPix2Pix在两年之内也是收获了小600个引用,足以证明这一方向的价值。其本质原理其实也类似前文中说到的“ 推理 ”。

InstructPix2Pix中展示的Instruction-Based Editing的结果例子

关于Instruction-Based Editing的具体研究,可以参考我的往期回答:

https://www.zhihu.com/question/647418577/answer/3423639220

3、Diffusion Models for NLP

目前从Transformer盛行的NLP社区来看,diffusion models for NLP绝对是一个可以深挖的点,具体可以参考我的回答:

https://www.zhihu.com/question/558525517/answer/3437058958


作者:AI 产品经理

Diffusion 才刚开始啊,还什么都不是呢……

TMD

Stable Diffusion的核心研究团队就确认已经集体辞职啦!

这其中包括了论文的第一作者Robin Rombach和共同第一作者Andreas Blattmann,以及另一位作者Dominik Lorenz。

这一消息是由Stability AI的首席执行官Emad Mostaque在一次全体员工会议上宣布的。应该就是实锤了……

然后:Stability AI CEO @EMostaque 也辞职啦!去做去中心化人工智能啦!

就是尼玛那种没有核心云,全靠本地算力和分布式的云维护数据,然后参数共享的 AI……

卧槽,这东西是每个 “AI 降临派”的梦想啊……

他们倒是去实现梦想了,

却给Stability AI 资养的 Stble Diffusion 留下了一个巨大的烂摊子……

现在就剩下一毛不拔的闭源的 MJ 抽血啦……

Inflection AI 刚被微软挤兑死, Stability AI 这个稳定 AI 也不稳定啦!直接自杀啦!

但是一直追随稳定 AI 的群众表示情绪稳定……

我们归拢归拢……这个社区还需要做点啥……快点挑起大旗接着干啊,别黄摊了……

1、多模态的应用:

怎么样结合文本和图像生成,就是类似于 Sketch-Guided Text-to-Image Diffusion Models 这种的,还有目前 Sora 的探索方向,这不都是在研究吗?

Sora 这方向,不一定就是终极形态啊,乍一看挺惊艳,但是细细一想,是不是跑偏了也不一定啊,这尼玛成本不说,而且路线太 AI 了。就是用在元宇宙上都有点“虚”,更别说普通的基础应用了。

而且,现在全行业押宝 Transformer ,大有一统 diffusion 的意思,是不是太费钱费电了?

先看看 GPT-5 和谷歌的效果吧

2、对自然语言的理解

扩散模型在图像生成任务中超越了传统的生成对抗网络(GAN),并且在生成高质量图像方面取得了显著的进展。

但是,这一轮生成式 AI 之所以窜出来这么快,就是“对理解层的果断放弃”啊,简单点说,就是不使用提示词就不能理解人类啊啊啊啊!

搞得人类不能训练 AI 就要训练自己啊!

搞自然语言处理的人还要推“提示词工程”,这 TMD 不是全行业的耻辱吗!

不用“中英文语言翻译”了,却要学习“人类和 AI 语言翻译”,这 TM 正常吗?这行业还要不要脸了?

diffusion 应该用自然语言就能交互才对吧?

至少也应该做到Dall-E 的水平吧?

所以,这也是在 2824 年必须突破的。

3、加速和效率改进:

针对原始扩散模型采样速度慢的问题,大家不是也在探索如何加速扩散模型的采样过程,例如通过Analytic-DPM、Extended-Analytic-DPM和DPM-Solver等方法。

这也是 2024 年能做的啊

一定要趁着现在算力紧张的时候推动这个工作,否则,未来几年英伟达,谷歌,华为,一众大神发功,中美再来个贸易协定,互相采购。算力搞不好又过剩了,就没人在乎效率了,又错过了这个历史机遇。

4、训练方法的改进:

例如Diffusion ODE的极大似然训练

直接优化扩散潜在空间(DOODL)

最小信噪比加权策略(Min-SNR-γ)

自注意力引导(SAG

扩散模型的量化(Q-Diffusion)

SVDiff:紧凑参数空间的扩散微调

DiffFit:简单参数高效的微调

扩散概率模型基于最优传输(DPM-OT)

这其实不用多说,需要改进的还有很多,只是很多朋友自己就“架炉子炼丹”,显卡呼呼的冒烟,肯定有得是人着急和关注这些事,不用强调。

5、可控生成:

研究如何生成可控的输出,Controllable Generation 做不好,这 Diffusion 也容易走进死胡同里呀,

例如通过EGSDE(Efficient Guided Sampling for Diffusion Models)等方法来实现对生成内容的更精细控制。

文本引导的生成有没有更接近自然语言的方法?通过迭代修改文本到图像扩散模型的一个额外输入token的嵌入向量,将生成的图像朝着给定的目标类别进行导引,这目前也只有 Dall-E 做的好啊,其他都不行。不过 Dall-E “功夫在诗外”

类别或属性引导:通过使用类别标签或属性描述来引导扩散模型,可以生成具有特定类别或属性的图像。例如,可以在带类标签的数据集上训练扩散模型,或者使用预训练的分类器作为引导信号,以提高生成图像的准确性和质量。

编辑和微调技术:在生成过程中,可以使用编辑技术对特定区域或特征进行微调,以满足用户的特定需求。包括但不限于通过在生成过程中引入蒙版(Mask),可以遮盖或修改图像的某些部分,从而实现更精细的控制。

条件扩散模型:就是Conditional Diffusion Models,通过在训练和生成过程中引入额外的条件信息,如文本、类别标签或其他模态的输入,来控制生成过程。

还有交互式生成:根据各种输入进行迭代优化。这个得跟“多模态”一起玩儿。没“多模态”就没啥可交互的东西。

所以又说回来多模态引导:文本、图像、音频啊,我看日本还有个变态的,根据气味的,来以实现跨模态的可控生成。这个“日本气味生成的问题”,刚才 @白白小白 问了,我就单独把气味生成这个事情放在文章最后说几句。

6、理论建立和算法改进:

所以,这个事情肯定不是一个人一家公司或者一个团队能做成的,整个行业都要从理论和算法的角度对扩散模型的能力进行分析,并建立基本的共识, 这样才能确保所有公司“打的是同一个副本”,防止最后散沙一片。每个公司做成的事情,最后能拼接成一个统一的地图

我为了这个事还弄了一本书,重新学数学,然而我这个岁数精力已经不足了,天天烦心事太多,已然无法集中注意力学习了。

7、与其他研究领域的结合:

毕竟,这东西最终是要拿来用的,不管是十年,二十年还是五十年,你不能和别人相结合。弄个空中楼阁,自己薅自己头发是不能飞起来的。

我刚才看 @CHAD 提到了一个 RF-Diffusion 的概念,我查了一下,这是在MobiCom '24会议上,刚提出的概念,利用时间-频率扩散模型(Time-Frequency Diffusion Model)来生成无线电信号。

RF-Diffusion: Radio Signal Generation via Time-Frequency DiffusionGuoxuan Chi, Zheng Yang, Chenshu Wu, Jingao Xu, Yuchong Gao, Yunhao Liu, and Tony Xiao HanIn Proceedings of the ACM MobiCom, 2024

论文地址:http://tns.thss.tsinghua.edu.cn/~jingao/publications/

大概意思是,RF-Diffusion的核心思想是将扩散模型(Diffusion Model)应用于无线信号的生成,以此来增强无线信号数据的多样性和丰富性。

我算是涨了见识了,所以要坚持写东西,做交流,这太重要了。

我并不懂这个领域,有人问就贴出来讨论,大家一定要充分讨论这事情靠谱不靠谱 @Beman

RF-Diffusion 大概的意思是说, 在无线通信系统中,信号的多样性和复杂性对于提高系统性能、增强信号的鲁棒性以及提高频谱利用率等方面都至关重要。RF-Diffusion通过模拟信号在时间-频率域内的扩散过程,生成新的无线电信号样本。这种方法可以有效地扩充无线信号的数据集,尤其是在有限的实测数据情况下,通过数据增广技术可以提高无线通信系统的训练和测试效果。

我查了一下,RF-Diffusion可能涉及以下几个关键步骤,不过我水平有限,一知半解的先罗列出来:

信号表示:首先,需要将无线电信号转换为适合扩散模型处理的表示形式,例如将其转换为时频域的表示。

模型训练:使用大量的无线电信号样本来训练扩散模型,使其能够学习信号在时间-频率域内的统计特性

信号生成:训练完成后,模型可以生成新的信号样本,这些样本具有与训练数据类似的统计特性,但在细节上是独一无二的。

性能评估:生成的信号样本需要在无线通信系统中进行测试,以评估其对系统性能的影响,包括信号的可检测性、误码率、抗干扰能力等。也就是说, RF-Diffusion的研究为无线信号处理领域提供了一种新的数据增广方法。通过生成更多样化的信号样本,可以更好地模拟和应对实际无线环境中的各种情况,从而提高系统的整体性能和可靠性。







请到「今天看啥」查看全文