AI绘画模型一直以来被概括为“文生图”模型,究其原因,是因为当前的主流图像生成模型基本都只提供了基于文本条件生成图像的能力,各家的AI绘画产品也主要在生成画质和文本理解能力上进行竞争。但对于专业的使用者来说,文本能提供的画面控制能力非常有限,导致当前的AI绘画产品还达不到作为专业生产力工具来使用的标准。
为了解决这一问题,360人工智能研究院在人工智能顶会NeurIPS2024上提出了
布局可控AI绘画模型HiCo
,并将于近期开源。基于HiCo模型,使用者可以对生成画面中的不同主体的布局进行自由控制和调整,实现
“指哪打哪”
的生成效果。话不多说,先让我们来看一组生成效果(使用者基于不同的矩形框和对应的文本描述,来控制在画面的不同位置生成指定的内容):
接下来是HiCo工作的详细原理解读:
-
论文标题
:HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
-
论文链接
:https://arxiv.org/abs/2410.14324
-
项目主页
:https://360cvgroup.github.io/HiCo_T2I/
1.摘要
布局到图像生成的任务是AIGC领域一项重要研究方向,通常指根据实例对象的文本描述及其空间位置合成目标图像。
现有的方法仍然难以生成复杂的布局,常见的不良情况包括对象丢失、光影不一致、视角冲突、重叠区域的目标交互等。
为了有效地解决这些问题,我们提出了一个层次可控(HiCo)扩散模型,具有对象分离的条件分支结构。
我们的主要观点是通过布局的层次化建模来实现空间分离。我们使用多分支结构来表示层次内容,并将它们聚合到融合模块中。
2.动机
主流的布局可控生成是采用新设计网络结构或特殊的交叉注意力机制,来实现目标的位置可控,然而在复杂场景下这些方法存在目标丢失、指令遵循能力下降、生成图像失真、推理资源消耗过大以及开源社区生态适配等问题。
如何在保证原始扩散模型能力的不变的同时,引入布局子区域的位置可控能力是我们面临的首要挑战。典型的引入外部可控条件进行图像生成的方法,如ControlNet、IP-Adapter等,其外部可控条件不限于人体姿态、关键点、参考图。
为了解决上述挑战,本文提出了层次可控扩散模型,本方法通过权值共享的分支分别提取层次化布局特征,并用融合网络进行精细聚合。
3.方法
3.1 模型整体架构
针对上述问题挑战,结合目前扩散模型外部控制条件引入的常用方法,本文提出一种名为HiCo的分层可控扩散模型(Hierarchical Controllable Diffusion Model),用于从布局生成高质量和逼真的图像。HiCo的整体架构如图1所示,包括主干SD基础模型、权重共享的旁支网络HiCo以及融合模块FuseNet。
图1:分层布局可控生成模型HiCo结构
3.2 层次化建模及融合模块
为了兼具扩散模型的能力,同时引入布局可控的能力,研究者提出了HiCo方法。该方法通过层次化建模解耦不同目标的空间布局,并动态整合背景信息和不同前景目标的内容及交互。
朴素的扩散模型的目标函数如下式:
引入外部控制条件的扩散模型目标函数如下式,给定输入图片
,通过渐进式扩散加噪到
,其中
为加噪步数,
为文本控制条件,
为特定控制条件,
为可学习的网络来预测不同阶段的噪声。
相对于包含常规控制条件的扩散模型,本方法新增额外的权重共享的HiCo Net来生成全局背景和不同布局区域内容,由于增加了多个不同的控制条件,则训练目标为:
其中,