专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
江西省邮政管理局  ·  江西卫视:快递进村 打通物流“最后一公里” ·  昨天  
题材小表格  ·  最新A股正宗阿里云概念股梳理 ·  2 天前  
题材小表格  ·  最新A股正宗阿里云概念股梳理 ·  2 天前  
联想Filez协同办公  ·  Filez AI知识库 + ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

T2I-Adapter: 在文本-到-图像扩散模型中学习适配器挖掘更多可控制能力

计算机视觉深度学习和自动驾驶  · 公众号  · 互联网安全 科技自媒体  · 2024-06-08 00:15

正文

23年2月论文"T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models", 来自北大、腾讯、澳门大学等,实习生的工作。

大规模文本-到-图像(T2I)模型令人难以置信的生成能力,已经证明其学习复杂结构和有意义语义的强大能力。 然而,仅仅依靠文本提示并不能充分利用模型所学到的知识,尤其是在需要灵活准确的控制(例如颜色和结构)时。 本文目标是“挖掘”T2I模型隐式学习的能力,然后再显式使用来更细粒度地控制生成。 具体而言,学习一个简单而轻量级的T2I-Adapter,使T2I模型中的内部知识与外部控制信号保持一致,同时冻结原始的大T2I模型。 这样,可以根据不同的条件训练不同的适配器,在生成结果的颜色和结构上实现丰富的控制和编辑效果。 此外,所提出的T2I-Adapter具有很有吸引力的实用价值,如可移植性和泛化能力。 大量实验表明,T2I-Adapter具有良好的生成质量和广泛的应用。

如图所示:T2I-Adapter,一个简单而小的模型,为预训练的文本-到-图像(T2I)模型提供了额外的指导,同时不影响其原始网络拓扑和生成能力。得益于T2I-adapter,原始T2I模型(例如Stable Diffusion)难以准确生成的, T2I-Adapter可以得到更具想象力的结果。可以使用各种指导,如颜色、深度、草图、语义分割和关键点。可以使用T2I-Adapter进一步实现本地编辑和可组合指导。

如图所示: T2I-Adapter可以为预训练的文本-到-图像模型提供额外的指导,同时不影响其原始生成能力。 它还具有一些具有实用价值的吸引人的特性,比如:

  • 即插即用。不影响现有T2I扩散模型(例如,SD)的原始网络拓扑和生成能力。

  • 简单小巧。可以很容易地以低训练成本插入现有的T2I扩散模型中,并且在扩散过程中只需要一个推理。重量轻,具有~77M的参数和~300M的存储空间。

  • 灵活。可以针对不同的控制条件训练各种适配器,包括空间颜色控制和精细结构控制。

  • 可组合。可以很容易地组成一个以上的适配器,实现多条件控制。

  • 可推广。经过训练,只要从相同的T2I模型中进行微调,就可以直接用于自定义模型。

最近大量的扩散方法专注于文本-到-图像(T2I)的生成任务。例如,Glide[23]提出在去噪过程中将文本特征组合成Transformer块。随后,DALL-E[30]、Cogwiew[6]、Make-a-scene[10]、SD[32]和Imagen[34]极大地提高了T2I生成的性能。广泛采用的策略是在特征空间中进行去噪,并通过交叉注意模型将文本条件引入去噪过程。尽管达到了很好的合成质量,但文本提示并不能为合成结果提供可靠的结构指导。PITI[43]建议缩小其他类型条件的特征与文本条件之间的距离来提供结构指导。[42]提出利用目标草图和中间结果之间的相似性梯度来约束最终结果的结构。[11,9,1]还提出了一些方法调整预训练T2I模型中的交叉注意图,指导生成过程。这种方法的一个优点是不需要单独的训练。但在复杂场景中仍然不实用。当并行工作时,[45]学习特定于任务的控制网络,实现预训练T2I模型的条件生成。[14] 提出了在一组控制因子的条件下重新训练扩散模型。







请到「今天看啥」查看全文