专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
新浪科技  ·  【#马斯克称DeepSeek很强但我的AI更 ... ·  2 天前  
51好读  ›  专栏  ›  极市平台

ECCV'24|OMG:已开源,遮挡友好的个性化多概念生成新框架

极市平台  · 公众号  · 科技媒体  · 2024-08-26 22:00

主要观点总结

本文提出了一种两阶段的个性化生成框架OMG,旨在解决多概念个性化生成过程中的遮挡问题。OMG采用概念噪声混合方法,无需任何训练即可与各种单概念个性化生成方法相结合,解决身份退化问题。实验结果表明,OMG在多概念个性化生成方面展现出卓越性能。

关键观点总结

关键观点1: OMG框架的目标

解决多概念个性化生成中的遮挡问题,保持身份特征,确保前景与背景的光照一致性。

关键观点2: OMG框架的特点

采用两阶段采样方法,第一阶段处理遮挡问题并收集视觉理解信息,第二阶段利用收集到的信息整合多个概念,通过概念噪声混合方法实现个性化生成。

关键观点3: OMG框架的方法

使用文本到图像生成模型T2I,通过视觉理解技术确定概念掩码位置,利用噪声概念混合方法将特定概念ID注入图像的特点区域,通过保存和重用注意力图来保持遮挡布局。

关键观点4: 实验与结论

实验证明OMG能够解决遮挡问题,生成高质量图像,且无需额外训练即可与各种单概念定制模型无缝结合,具有通用性和实用性。


正文

↑ 点击 蓝字 关注极市平台

作者丨孔哲 中山大学
编辑丨极市平台

极市导读

本文提出了一种两阶段的个性化生成框架OMG,旨在解决多概念个性化生成过程中遇到的遮挡问题。此外,本文还提出了一种概念噪声混合方法,通过这种方法,OMG无需经过任何训练就能轻松地与各种单概念个性化生成方法相结合从而解决身份退化问题。大量实验结果证明,OMG在多概念个性化方面展现出了卓越的性能。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文: https://arxiv.org/abs/2403.10983

代码: https://github.com/kongzhecn/OMG

Demo: https://huggingface.co/spaces/Fucius/OMG

项目: https://kongzhecn.github.io/omg-project/

引用:

@inproceedings{kong2024omg,
  title={Omg: Occlusion-friendly personalized multi-concept generation in diffusion models},
  author={Kong, Zhe and Zhang, Yong and Yang, Tianyu and Wang, Tao and Zhang, Kaihao and Wu, Bizhu and Chen, Guanying and Liu, Wei and Luo, Wenhan},
  booktitle={Proceedings of the European conference on computer vision (ECCV)},
  year={2024}
}

摘要

个性化生成是文本到图像生成中的一个重要问题,特别是当涉及到多概念个性化生成时,其挑战性更是不言而喻。尽管现有的多概念个性化生成方法已经取得了一定的进展,但在保持身份特征(ID保持)、处理遮挡问题以及确保前景与背景在光照上的一致性等方面,仍存在着诸多不足。针对这些问题,本文提出了一种新颖的OMG框架。该框架采用两阶段的采样方法解决现有模型的局限性。

具体来说,该框架通过一个两阶段的采样解决方案来实现,第一阶段负责布局生成和视觉理解信息的收集,以处理遮挡问题;第二阶段则利用收集到的视觉理解信息和设计好的噪声混合策略,在考虑遮挡的同时通过本文提出的概念噪声混合方法整合多个概念。本文发现概念噪声混合的起始去噪时间是保持身份和布局的关键。除此以外,OMG可以轻松地与各种单概念个性化生成方法(如LoRA和InstantID)相结合,无需进行额外的调整即可直接利用社区中的丰富模型资源(例如civitai.com上的模型)。这种兼容性使得OMG框架在实际应用中具有更广泛的适用性和更高的效率。

方法

方法的整体示意图如下图所示。在第一阶段,该方法主要负责生成布局并处理遮挡问题,同时保存整个过程中获取的注意力图。此外,通过视觉理解技术,我们还能确定不同角色的掩码位置。进入第二阶段,系统会利用第一阶段收集到的图像布局信息和位置信息,准确地将角色ID注入到对应的区域中。

1.一阶段:视觉理解信息的准备

首先,我们使用一个描述图像中多个对象的文本提示 p 输入 T2I 模型,生成一张非个性化的图像。在这个文本提示 p 中,仅包含类名(如“man”或“woman”),而不包含触发定制化图像生成的特殊标识符(如“[v] man”或“[v] woman”)。因此,一张非定制化的、包含了合理布局的图像 可以通过以下公式得到:

本文采用的文本到图像生成的模型 T2I 为 SDXL。T2I 模型的 UNet 网络由自注意力层和交叉注意力层构成。在去噪过程中,视觉嵌入和文本特征通过交叉注意力层进行融合,为每个文本标记生成交叉注意力图 A。A 的计算过程如下:

在每个去噪步骤 t , 将文本提示 p 输入 T 21 模型后, 可以计算得到交叉注意力图 ,它包含 个注意力层对应的空间注意力图 ,我们将这些注意力图进行保存。

在第二阶段需要使用噪声概念混合方法将特定概念 ID 注入图像的特点区域。为了获取这些区域的位置,在第一阶段我们使用图像理解的方法获取概念掩码区域 。具体来说,通过输入生成的图像 和 p 中的类别名称 (例如,"man"或"woman"),可以得到对应 k 个概念掩模 , 其中 k 是我们要定制化生成的概念数量。这样,我们就可以根据这些概念掩模来指导第二阶段的噪声注入过程,从而实现多概念的定制化生成。

2.二阶段:多概念个性化去噪

1)概念噪声的混合:

为了降低额外的训练开销并实现即插即用的功能,OMG 在进行第二阶段多概念定制化生成时,不采用 LoRA 融合方法,而是利用多个针对单一概念的模型分别进行推理,并将各个模型的预测噪声进行融合。此外,每个单概念模型仅负责特定区域的个性化生成,这种方法能有效缓解身份退化问题。

都对应一个定制化的生成模型 和该区域对应的文本提示 。因此, 在每一个时间步 t ,第 i 个概念对应的预测噪声为:

其中, 需要包含触发生成第i个概念的特殊标识符。

在第 t 步, 输入全局文本提示 p ,经过 T 2 I 模型生成了包含遮挡布局的全局输出 。由于 是未包含个性化的噪声, 为了将特定的概念 注入







请到「今天看啥」查看全文