@inproceedings{kong2024omg, title={Omg: Occlusion-friendly personalized multi-concept generation in diffusion models}, author={Kong, Zhe and Zhang, Yong and Yang, Tianyu and Wang, Tao and Zhang, Kaihao and Wu, Bizhu and Chen, Guanying and Liu, Wei and Luo, Wenhan}, booktitle={Proceedings of the European conference on computer vision (ECCV)}, year={2024} }
首先,我们使用一个描述图像中多个对象的文本提示 p 输入 T2I 模型,生成一张非个性化的图像。在这个文本提示 p 中,仅包含类名(如“man”或“woman”),而不包含触发定制化图像生成的特殊标识符(如“[v] man”或“[v] woman”)。因此,一张非定制化的、包含了合理布局的图像
可以通过以下公式得到:
在每个去噪步骤 t , 将文本提示 p 输入 T 21 模型后, 可以计算得到交叉注意力图
,它包含
个注意力层对应的空间注意力图
,我们将这些注意力图进行保存。
在第二阶段需要使用噪声概念混合方法将特定概念 ID 注入图像的特点区域。为了获取这些区域的位置,在第一阶段我们使用图像理解的方法获取概念掩码区域
。具体来说,通过输入生成的图像
和 p 中的类别名称 (例如,"man"或"woman"),可以得到对应 k 个概念掩模
, 其中 k 是我们要定制化生成的概念数量。这样,我们就可以根据这些概念掩模来指导第二阶段的噪声注入过程,从而实现多概念的定制化生成。