题目
:RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images
作者
:Benzhi Wang, Jingkai Zhou, Jingqi Bai, Yang Yang, Weihua Chen , Fan Wang , Zhen Lei
来源
:
arxiv 2024
论文链接
:https://arxiv.org/abs/2409.03644
内容整理
:张凌铠
本文介绍了一种名为RealisHuman的后处理框架,旨在修复生成图像中畸形的人体部分。该框架采用两阶段的方法:在第一阶段生成逼真的人体部件,RealisHuman利用原始畸形部件作为参考,生成逼真的人体部件,如手和脸。这一过程确保了与原始图像的一致性和细节的保留。在第二阶段无缝整合修复部件,框架通过重绘周围区域,将修复后的人体部件无缝整合回原始图像中,确保自然的融合效果。研究表明,RealisHuman显著提升了生成图像中人体的真实感,实验结果在定性和定量指标上均显示出显著改善。此外,该方法还具有强大的泛化能力,能够适用于不同风格的图像修复任务,包括其他结构固定物体的修复。在实验部分,研究者通过与现有方法的比较,验证了RealisHuman在手部和面部修复任务中的优越性,展示了其在处理畸形部件时的有效性和可靠性。尽管如此,文章也讨论了该方法的局限性,并指出未来的改进方向。RealisHuman为生成图像中的人体部分修复提供了一种有效的后处理解决方案,展示了在视觉生成领域的重要应用潜力。
目录
引言
方法
修正人体部位生成
区域细节编码器
无缝的人体部位整合
训练
实验
结论
引言
图1:修复结果对比图示。每对图像由两幅图像组成:左图像为原始图像,右图像为修复结果。
近年来,扩散模型在视觉生成领域取得了革命性的进展,超越了传统的生成对抗网络(GAN)框架。基于扩散原理的诸多模型,作为参数化的马尔可夫链,通过一个连续的优化过程,显示出将随机噪声转换为复杂图像的能力,在图像生成和各种相关任务中表现出了巨大的潜力。然而,由于人类结构的复杂性,尤其是手部和面部特征的复杂性,再加上VAE编码器降采样后保留的信息的有限性,生成具有真实语义部分(如手和面部)的图像仍然是一个重大挑战。
已有的后处理方法,例如HandRefiner,常常因为信息的缺失和有限性而无法在肤色和纹理上保持一致。另外,还存在引入其他区域的失真、难以在手部面积过小的情况下进行重建优化的问题。
为了解决这个问题,本文提出了一种名为RealisHuman的新型后处理解决方案。RealisHuman框架分为两个阶段。RealisHuman 能够定位并裁剪畸形区域,从而集中精力进行详细的局部修复,确保小区域的高质量修复。与仅限于手部修复的 HandRefiner 不同,RealisHuman 能够修复多种人类部位,同时保持皮肤色调和纹理等细节。修复后的部位设计为真实且与周围图像一致,从而提升整体图像质量。RealisHuman还展示了强大的泛化能力,能够有效处理包括卡通、素描等在内的不同风格的图像。
如图2所示,我们的RealisHuman框架分两个阶段运行。首先,利用原始的畸形部分作为参考,生成逼真的人类部分(如手或面部),确保与原始图像的一致细节。其次,通过重新绘制周围区域,将修正后的人类部分无缝集成回其对应位置,以确保平滑和真实的融合。该研究训练了一个能够将人体部位与周围区域无缝融合的模型,确保了平稳过渡和现实融合。该方法不仅纠正了结构上的不准确性,而且保持了与原始图像的视觉一致性,为图像生成任务中的人体部位细化提供了一种解决方案。RealisHuman框架显著增强了人类生成的真实感,通过综合实验证明了在定性和定量测量方面的改进。
图2:Realishuman的实现细节。该方法将细化畸形人体部位的任务分为两个不同的阶段。在第一阶段,我们专注于使用部件详细信息编码器生成逼真的人体部件。给定一幅包含畸形人体部位的图像,我们首先对目标区域进行定位和裁剪。随后,过滤了目标区域的背景,创建了一个提供重要部分细节的参考图像,例如皮肤色调。还估计了人体部位的3D结构,以作为姿势引导。利用参考图像和部件结构,生成了具有精确结构和细节信息的逼真的人体部件。在第二阶段,目标是将细化后的人体部位无缝地融合到原始图像的相应区域中,从而得到细化后的图像I。为了避免切割和粘贴的外观,还对背景和校正后的人体部位之间的区域进行了重新绘制,确保了无缝集成和更自然的整体外观。
综上所示,本文的贡献可以列出如下:
提出了一种名为RealisHuman的新颖的后处理框架,以解决在生成图像中细化人体部位的任务,保持了与原始图像一致的细节,有效地处理了小部分的细化,并且在不同的图像风格中表现出强大的泛化能力。
RealisHuman框架显著增强了人类生成的现实性,大量实验证明了其在定性和定量指标上的增强。
方法
本研究的目标是在保留原始部件的一致细节的同时,细化畸形部件。总体框架流程已在图2中表示。为了保证校正后的人体部位的真实感,将流程分为两个明显的阶段。第一阶段,在区域网格和畸形部分图像的引导下生成矫正后的人体的部分。在第二阶段,将第一阶段得到的矫正后的人体部位整合回局部图像中,随后对周围区域进行重新绘制,以达到最终的结果。
修正人体部位生成
数据准备
目前,已有一系列由算法生成的包含畸形人体部位的原始人体图像和对应的生成图像。首先使用人体骨架估计方法对目标部分区域进行定位和裁剪。隔离得到存在畸形部位的区域后,采用当前最先进的网格重建方法来对每个畸形部位区域的网格进行重建。此外,本文渲染网格以产生深度图和二值掩膜图
。为了减少背景的影响,聚焦于逼真的人体部位生成,我们应用掩膜
滤除背景,得到人体部位的前景区域作为参考图像
。
区域细节编码器
在已有的方法中,采用CLIP将图片的信息压缩成一维向量并与交叉注意力机制融合。然而,这些方法在保持外观细节方面面临挑战,因为将参考图像编码为语义级别的特征会导致空间表示的丢失。
之前的工作发现,自注意力机制可以显著增强参考图像中细节的保留。受这些发现的启发,我们引入部件细节编码器,通过整合参考图像
的细节信息来提高矫正人体部件的真实感。部件详细信息编码器与原始的稳定扩散( Stable Diffusion,SD )具有相同的架构,包含自注意力和交叉注意力层,并使用原始的SD UNet进行初始化。为了更好地融合细节信息,将输入修改为UNet的自注意力机制。具体而言,将部件细节编码器的中间输出与原始SD的中间输出进行级联,并将该级联输出作为原始SD的自注意力机制的输入。这种方法保证了细粒度的细节被保留下来,增强了生成的人体部位的整体真实感。修改后的自注意力机制可以表示为:
式中:
为特征维数。
、
和
分别表示原始SD的自注意力层中的查询、密钥和值。同时,
和
分别表示部件详细信息编码器自注意力层的键和值。
同时,我们使用DINOv2得到参考图像的图像嵌入
,然后通过交叉注意力机制传递到模型中。该方法补充了参考图像的语义级特征。深度图通过若干卷积层的处理后,可以得到姿态的条件
。然后将其添加到输入到去噪UNet之前的潜在噪声中。根据上述设计,该部分的训练的损失可以定义为:
其中
ε
θ
表示去噪UNet的可训练参数,
为时间步长嵌入。
无缝的人体部位整合
另一个重要问题是直接将矫正后的人体部件粘贴回来,在编辑区域引入了复制和粘贴伪影,使得生成的图像显得不自然。为了解决这个问题,我们重新绘制了背景和矫正后的人体部位之间的区域,将它们无缝地集成到目标区域中,以获得更自然的外观。
完成畸形人体部分的定位后,获取得到畸形区域的二进制掩码
。在此基础上,通过先膨胀后腐蚀的方法,修正二进制掩码的位置,利用被腐蚀的掩码,我们提取出被腐蚀的人体部分,并将其粘贴回相应的区域。腐蚀过程是至关重要的,因为第一阶段生成的矫正人体部分往往表现出不和谐的边缘,这显著影响了重绘结果。假设局部人体部位图像记为
,相应的掩模图像和二值掩模可以用
和