点击“
计算机视觉life
”,选择“星标”
机器人AI干货第一时间送达
来源:知乎,原文链接:https://www.zhihu.com/question/647875443?utm_psn=1780912809950973952
动手实现3DGS SLAM:3DGS + GICP +Unc + GTSAM,性能逼近与超越SplaTAM!
15讲全部上线!2024最炸裂的新技术!3D Gaussian Splatting(全网独家)
作者:叫我Alonzo就好了
纯属brainstorm,欢迎大家一起探讨。我会尽可能举一些具体例子来分析。部分点在我之前的一个相关回答中也有,大家可以移步参考:
https://www.zhihu.com/question/647244779/answer/3422163670
这个回答对之前的回答做进一步的补充完善。我们通过“
数据、模型、优化
”三个角度,再加上能做的“
任务
”,可以将diffusion models的全流程解剖一下,然后一个一个来看,
个人比较看好的方向加粗标出
:
一、数据
“数据”角度主要还是关注生成图像的一些特性,比如说生成图像的resolution、domain等等。
1、生成图像分辨率
关注生成图像的“分辨率”其实就是做“High-Resolution Image Synthesis”,个人一直认为属于是“
简单但难解的工程问题
”,原因很简单,分辨率成倍增大,生成模型要生成的像素点就需要以2次方倍的速度增加。
经典的例子一般通过
优化压缩模型
或者是采用“
生成 + 超分
”来做。
对于前者来说,比较经典的例子就是Stable Diffusion了,将DDPM在pixel space的diffusion process直接搬到VQGAN的隐空间里做,大家都很熟悉了,这里就不再展开。
Stable Diffusion的模型架构图
个人感觉这里一个可能的点是怎样优化压缩模型,
采用更激进的下采样策略,同时又能保证压缩模型带来的精度损失在可接受的范围内
,来实现更高分辨率的生成。举个具体例子,Stable Diffusion的VQGAN目前是将512×512的图像,压缩至64×64的latent feature(下采样8倍),假设我们能够拿到这样一个“超级压缩模型”,能够实现512×512到16×16(下采样32倍),那么直接拿Stable Diffusion这一套去用,理论上就能实现2048×2048的更高分辨率生成。
“
生成 + 超分
”的范式可以关注近期清华 + 智谱AI做的Cogview 3,目前已经能做到最高2048×2048的生成,超分阶段采用了Relay Diffusion,Relay Diffusion是关于diffusion models的noise scheduling来增强高分辨率生成的工作,挺有意思的,而noise scheduling又属于比较小众的赛道,这一块也还有研究空间。
Cogview 3的结果
关于Relay Diffusion以及Cogview 3的解析,可以参考我的文章:
https://zhuanlan.zhihu.com/p/686899891
2、生成特定领域图像
这一块其实涉猎面就挺广的,“特定领域”(specific domain)指的可以是特定“美感”的图片,也可以是灰度图像、线稿图、医疗图像这类专业领域的图片。近期的Playground v2.5其实也是基于这个motivation开展工作的,对比证明了SDXL生成“特定背景下”的图片仍然面临困难:
Playground v2.5的motivation
能做的点,一方面是
方法
,虽然说Civitai上面众多的SD插件已经证明了LoRA微调是比较有效的方案,但是
training-free solution
还可以研究;另一方面就是
生成什么domain的图像
,这就涉及这样做具体有什么应用价值,以及故事应该怎么讲的问题。
近期有一些做生成医疗图像的工作,尚不清楚其具体应用价值,不过也一同分享出来,有需要的朋友可以参考。例如LLM-CXR:
LLM-CXR的方法流程图
MedXChat:
MedXChat的方法流程图
二、模型
模型上主要还是按照现有主流latent diffusion models的设计,分为压缩模型、网络架构、文本编码三块,加上模型采样过程的优化。
1、压缩模型
压缩模型本质是一个
图像压缩
问题,即
怎样尽可能多地节约数据容量,同时又能够保证数据精度的损失可以接受
。正是因为这样,懂压缩模型的人其实相对较少,怎样能结合生成的特点设计压缩模型,其实还有较大研究空间。
近期的一些相关研究,例如Wuerstchen,
提出级semantic compression将图像在像素空间的信息加入到latent diffusion models中
:
Wuerstchen的方法流程图
另外近期的Stable Diffusion 3也在压缩模型上做出了改进,将VQGAN latent feature的channel数量增大了,
从而减少压缩模型编码-解码过程中的精度损失
,其重构性能在多个指标上都有显著提升:
Stable Diffusion 3改进后VQGAN的重构性能
尽管如此,现有的改进都偏工程化,压缩模型方面仍有较大的改进空间。关于Stable Diffusion 3的具体分析,可以参考我的往期文章:
https://zhuanlan.zhihu.com/p/685457842
2、网络架构
网络架构方面不得不提Diffusion Transformer,既然2024年初OpenAI的Sora、StabilityAI的Stable Diffusion 3都不约而同采用了这一架构;同时,PixArt系列的工作也一直采用的是这一架构,更加证明了其可行性。
这些AI巨头的动作势必会带动一系列基于Diffusion Transformer的工作
。
Diffusion Transformer的模型架构图
关于Diffusion Transformer的具体解读,可以参考我的往期文章:
https://zhuanlan.zhihu.com/p/684448966
3、文本编码
文本编码这一块其实是个人比较看好的发展方向,因为目前NLP社区大语言模型的发展也非常快,而大多数diffusion models还是沿用以往工作的CLIP或者T5-XXL来做文本编码。
如何将LLM跟diffusion models做结合,以及结合后有什么应用价值
,目前的工作还不多,例子可以参考ACM MM 2024的SUR-Adapter:
SUR-Adapter的模型架构图
另外值得一提的是,在DALL-E 3的带领下,Re-captioning基本上已成为了现有方法的标配,Cogview 3更是借助GPT-4V的多模态能力通过Visual QA的方式升级了Re-captioning的设计,随着GPT系列多模态能力的进一步增强,通过对GPT做一些prompt engineering拿到更多文本数据,也还大有文章可做。
补充
:“Diffusion + LLM”目前工作也还不多,可能是因为同时需要懂NLP和CV,有一定的技术门槛,具体可以参考我的文章:
https://zhuanlan.zhihu.com/p/687482566
4、采样
采样主要考虑两个方面,一个
提升采样质量
,二是
加速采样
。
第一点属于理论性要求比较高的工作,参考Classifier Guidance和Classifier-Free Guidance,有一定研究难度,但是idea如果work的话也具有巨大的普适价值。
第二点其实是目前主流的趋势,基本上都是基于Progressive Distillation来做。具体工作可以参考:SDXL-Lightning、Stable Cascade、SDXL Turbo、Cogview 3等等,具体不再过多展开。
关于Diffusion Distillation,可以参考我的往期回答:
https://www.zhihu.com/question/646919153/answer/3420804334
三、优化
优化方面个人认为其实也是大有可为的,现有方法大多还是沿用标准的MSE loss,而NLP社区LLM在强化学习方面的研究已经很多了,其实其中可以借鉴的点还比较多。
1、对齐人类特定偏好
说到LLM结合强化学习,大家第一印象想到的肯定是RLHF。事实上RLHF能做的事情有很多,可以增强样本质量、跟人类偏好做对齐,甚至是跟特定领域对齐,做domain adaptation,等等。
而反观图像生成社区,diffusion models跟强化学习结合的工作其实还不多,比较有名的工作可以参考DDPO。这方面由于我对强化学习不太熟悉,仅做分享,但从LLM研究的视角来看,在scaled up diffusion models的大趋势下,RLHF想必一定也能有它的用武之地。
2、推理
推理方面是个人感觉比较有意思的,相关的工作也还不多。例如名字比较有趣的MiniGPT-5,同样也是“
LLM + Diffusion
”的工作,可以看下它能做的一个例子:
MiniGPT-5的结果例子
为什么说“推理”值得去做
?个人认为效果如果能够实现图像维度的信息推理,那么就将In-Context Learning又上升了一个高度,具体能做的事情其实很多,比方说
Text-to-Comic Generation
,能够生成漫画(如果一致性能保持好的话);
Storybook Generation
,等等。这些任务如果做得足够好,或许会有新的文生图任务定义,甚至能产生可观的商业价值。
四、任务
任务上更多的是其他数据模态的生成,或者是文生图的任务变式来考虑。
1、视频生成
视频生成自然不用多说了,年初OpenAI放出的Sora,势必会带来一个视频生成的风口,带动一系列这方面的研究。另一方面,根据个人的调研结果,目前视频生成的工作还不多,仍有较大挖掘空间。关于视频生成的顶会文章,可以参考我GitHub repo收录的paper list:
https://github.com/AlonzoLeeeooo/awesome-video-generation
Video Generation GitHub Repo部分截图
2、Instruction-Based Editing
Instruction-Based Editing其实属于文生图的一个任务变式,这一任务自从CVPR 2022的InstructPix2Pix之后,连续两年的CVPR都收录了大约30篇左右的相关工作,而InstructPix2Pix在两年之内也是收获了小600个引用,足以证明这一方向的价值。其本质原理其实也类似前文中说到的“
推理
”。
InstructPix2Pix中展示的Instruction-Based Editing的结果例子
关于Instruction-Based Editing的具体研究,可以参考我的往期回答:
https://www.zhihu.com/question/647418577/answer/3423639220
3、Diffusion Models for NLP
目前从Transformer盛行的NLP社区来看,diffusion models for NLP绝对是一个可以深挖的点,具体可以参考我的回答:
https://www.zhihu.com/question/558525517/answer/3437058958
作者:AI 产品经理
Diffusion 才刚开始啊,还什么都不是呢……
TMD
Stable Diffusion的核心研究团队就确认已经集体辞职啦!
这其中包括了论文的第一作者Robin Rombach和共同第一作者Andreas Blattmann,以及另一位作者Dominik Lorenz。
这一消息是由Stability AI的首席执行官Emad Mostaque在一次全体员工会议上宣布的。应该就是实锤了……
然后:Stability AI CEO @EMostaque 也辞职啦!去做去中心化人工智能啦!
就是尼玛那种没有核心云,全靠本地算力和分布式的云维护数据,然后参数共享的 AI……
卧槽,这东西是每个 “AI 降临派”的梦想啊……
他们倒是去实现梦想了,
却给Stability AI 资养的 Stble Diffusion 留下了一个巨大的烂摊子……
现在就剩下一毛不拔的闭源的 MJ 抽血啦……
Inflection AI 刚被微软挤兑死, Stability AI 这个稳定 AI 也不稳定啦!直接自杀啦!
但是一直追随稳定 AI 的群众表示情绪稳定……
我们归拢归拢……这个社区还需要做点啥……快点挑起大旗接着干啊,别黄摊了……
1、多模态的应用:
怎么样结合文本和图像生成,就是类似于 Sketch-Guided Text-to-Image Diffusion Models 这种的,还有目前 Sora 的探索方向,这不都是在研究吗?
Sora 这方向,不一定就是终极形态啊,乍一看挺惊艳,但是细细一想,是不是跑偏了也不一定啊,这尼玛成本不说,而且路线太 AI 了。就是用在元宇宙上都有点“虚”,更别说普通的基础应用了。
而且,现在全行业押宝 Transformer ,大有一统 diffusion 的意思,是不是太费钱费电了?
先看看 GPT-5 和谷歌的效果吧
2、对自然语言的理解
扩散模型在图像生成任务中超越了传统的生成对抗网络(GAN),并且在生成高质量图像方面取得了显著的进展。
但是,这一轮生成式 AI 之所以窜出来这么快,就是“对理解层的果断放弃”啊,简单点说,就是不使用提示词就不能理解人类啊啊啊啊!
搞得人类不能训练 AI 就要训练自己啊!
搞自然语言处理的人还要推“提示词工程”,这 TMD 不是全行业的耻辱吗!
不用“中英文语言翻译”了,却要学习“人类和 AI 语言翻译”,这 TM 正常吗?这行业还要不要脸了?
diffusion 应该用自然语言就能交互才对吧?
至少也应该做到Dall-E 的水平吧?
所以,这也是在 2824 年必须突破的。
3、加速和效率改进:
针对原始扩散模型采样速度慢的问题,大家不是也在探索如何加速扩散模型的采样过程,例如通过Analytic-DPM、Extended-Analytic-DPM和DPM-Solver等方法。
这也是 2024 年能做的啊
一定要趁着现在算力紧张的时候推动这个工作,否则,未来几年英伟达,谷歌,华为,一众大神发功,中美再来个贸易协定,互相采购。算力搞不好又过剩了,就没人在乎效率了,又错过了这个历史机遇。
4、训练方法的改进:
例如Diffusion ODE的极大似然训练
直接优化扩散潜在空间(DOODL)
最小信噪比加权策略(Min-SNR-γ)
自注意力引导(SAG
扩散模型的量化(Q-Diffusion)
SVDiff:紧凑参数空间的扩散微调
DiffFit:简单参数高效的微调
扩散概率模型基于最优传输(DPM-OT)
这其实不用多说,需要改进的还有很多,只是很多朋友自己就“架炉子炼丹”,显卡呼呼的冒烟,肯定有得是人着急和关注这些事,不用强调。
5、可控生成:
研究如何生成可控的输出,Controllable Generation 做不好,这 Diffusion 也容易走进死胡同里呀,
例如通过EGSDE(Efficient Guided Sampling for Diffusion Models)等方法来实现对生成内容的更精细控制。
文本引导的生成有没有更接近自然语言的方法?通过迭代修改文本到图像扩散模型的一个额外输入token的嵌入向量,将生成的图像朝着给定的目标类别进行导引,这目前也只有 Dall-E 做的好啊,其他都不行。不过 Dall-E “功夫在诗外”
类别或属性引导:通过使用类别标签或属性描述来引导扩散模型,可以生成具有特定类别或属性的图像。例如,可以在带类标签的数据集上训练扩散模型,或者使用预训练的分类器作为引导信号,以提高生成图像的准确性和质量。
编辑和微调技术:在生成过程中,可以使用编辑技术对特定区域或特征进行微调,以满足用户的特定需求。包括但不限于通过在生成过程中引入蒙版(Mask),可以遮盖或修改图像的某些部分,从而实现更精细的控制。
条件扩散模型:就是Conditional Diffusion Models,通过在训练和生成过程中引入额外的条件信息,如文本、类别标签或其他模态的输入,来控制生成过程。
还有交互式生成:根据各种输入进行迭代优化。这个得跟“多模态”一起玩儿。没“多模态”就没啥可交互的东西。
所以又说回来多模态引导:文本、图像、音频啊,我看日本还有个变态的,根据气味的,来以实现跨模态的可控生成。这个“日本气味生成的问题”,刚才 @白白小白 问了,我就单独把气味生成这个事情放在文章最后说几句。
6、理论建立和算法改进:
所以,这个事情肯定不是一个人一家公司或者一个团队能做成的,整个行业都要从理论和算法的角度对扩散模型的能力进行分析,并建立基本的共识,
这样才能确保所有公司“打的是同一个副本”,防止最后散沙一片。每个公司做成的事情,最后能拼接成一个统一的地图
。
我为了这个事还弄了一本书,重新学数学,然而我这个岁数精力已经不足了,天天烦心事太多,已然无法集中注意力学习了。
7、与其他研究领域的结合:
毕竟,这东西最终是要拿来用的,不管是十年,二十年还是五十年,你不能和别人相结合。弄个空中楼阁,自己薅自己头发是不能飞起来的。
我刚才看 @CHAD 提到了一个 RF-Diffusion 的概念,我查了一下,这是在MobiCom '24会议上,刚提出的概念,利用时间-频率扩散模型(Time-Frequency Diffusion Model)来生成无线电信号。
RF-Diffusion: Radio Signal Generation via Time-Frequency DiffusionGuoxuan Chi, Zheng Yang, Chenshu Wu, Jingao Xu, Yuchong Gao, Yunhao Liu, and Tony Xiao HanIn Proceedings of the ACM MobiCom, 2024
论文地址:http://tns.thss.tsinghua.edu.cn/~jingao/publications/
大概意思是,RF-Diffusion的核心思想是将扩散模型(Diffusion Model)应用于无线信号的生成,以此来增强无线信号数据的多样性和丰富性。
我算是涨了见识了,所以要坚持写东西,做交流,这太重要了。
我并不懂这个领域,有人问就贴出来讨论,大家一定要充分讨论这事情靠谱不靠谱 @Beman
RF-Diffusion 大概的意思是说, 在无线通信系统中,信号的多样性和复杂性对于提高系统性能、增强信号的鲁棒性以及提高频谱利用率等方面都至关重要。RF-Diffusion通过模拟信号在时间-频率域内的扩散过程,生成新的无线电信号样本。这种方法可以有效地扩充无线信号的数据集,尤其是在有限的实测数据情况下,通过数据增广技术可以提高无线通信系统的训练和测试效果。
我查了一下,RF-Diffusion可能涉及以下几个关键步骤,不过我水平有限,一知半解的先罗列出来:
信号表示:首先,需要将无线电信号转换为适合扩散模型处理的表示形式,例如将其转换为时频域的表示。
模型训练:使用大量的无线电信号样本来训练扩散模型,使其能够学习信号在时间-频率域内的统计特性
信号生成:训练完成后,模型可以生成新的信号样本,这些样本具有与训练数据类似的统计特性,但在细节上是独一无二的。
性能评估:生成的信号样本需要在无线通信系统中进行测试,以评估其对系统性能的影响,包括信号的可检测性、误码率、抗干扰能力等。也就是说, RF-Diffusion的研究为无线信号处理领域提供了一种新的数据增广方法。通过生成更多样化的信号样本,可以更好地模拟和应对实际无线环境中的各种情况,从而提高系统的整体性能和可靠性。