今天给大家介绍一个字节刚开源的换脸写真新模型InfiniteYou,这是一种先进的零样本身份ID一致性保持模型,由字节跳动基于文生图领域最强开源模型FLUX模型研发的。InfiniteYou专注于利用扩散变换器(DiTs)技术实现灵活且高保真的身份保留图像生成。它解决了现有方法中存在的问题,如身份相似性不足、文本与图像对齐不佳以及生成质量和美学水平低下等。同时,InfiniteYou具有高度的兼容性,可以与现有的多种方法无缝集成,如FLUX.1-dev的不同变体、ControlNets、LoRAs等,为定制化任务提供了更多的控制力和灵活性。
相关链接:
主页:https://bytedance.github.io/InfiniteYou
论文:
https://arxiv.org/pdf/2503.16418
试用:
https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX
InfiniteYou 生成具有出色身份相似性、文本图像对齐、质量和美观度的身份保存图像。
论文介绍
实现灵活、高保真且身份保存的图像生成仍然是一项艰巨的任务,特别是使用 FLUX 这样的先进扩散变换器 (DiT)。论文推出了InfiniteYou (InfU),这是最早利用 DiT 完成此任务的强大框架之一。InfU 解决了现有方法的重大问题,例如身份相似度不足、文图对齐不佳以及生成质量和美观度低。InfU 的核心是 InfuseNet,它是一个通过残差连接将身份特征注入 DiT 基础模型的组件,在保持生成能力的同时增强身份相似度。多阶段训练策略,包括使用合成单人多样本 (SPMS) 数据进行预训练和监督微调 (SFT),进一步改善了文图对齐、提高了图像质量并减轻了人脸复制粘贴。大量实验表明,InfU 实现了最先进的性能,超越了现有基线。此外,InfU 的即插即用设计确保与各种现有方法的兼容性,为更广泛的社区做出了宝贵的贡献。
与最先进的相关方法的比较
InfU 与最先进的基线 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比较结果。FLUX.1-dev IP-Adapter (IPA) 生成的结果的身份相似性和文本-图像对齐不足。PuLID-FLUX 生成具有良好身份相似性的图像。然而,它的文本-图像对齐较差(第 1、2、4 列),图像质量(例如,第 5 列中的坏手)和美感下降。此外,PuLID-FLUX 的面部复制粘贴问题也很明显(第 5 列)。相比之下,提出的 InfU 在所有维度上都优于基线。
采用现成的流行方法的即插即用特性
InfU 具有理想的即插即用设计,与许多现有方法兼容。它自然支持使用 FLUX.1-dev 的任何变体(例如 FLUX.1-schnell)替换基础模型,以实现更高效的生成(例如,分 4 步完成)。与 ControlNets 和 LoRAs 的兼容性为定制任务提供了更多的可控性和灵活性。值得注意的是,与 OminiControl 的兼容性扩展了我们在多概念个性化方面的潜力,例如交互式身份 (ID) 和对象个性化生成。InfU 还与 IP-Adapter (IPA) 兼容,用于个性化图像的风格化,通过 IPA 注入样式参考时可产生不错的效果。
InfU 具有理想的即插即用特性,兼容许多流行的方法和插件。
方法
InfiniteYou (InfU) 的主要框架和 InfuseNet 的详细架构。投影的身份特征和可选的控制图像由 InfuseNet 通过残差连接注入到文本到图像的 DiT 中。具体来说,InfuseNet 中的每个 DiT 块预测基础模型中相应 i DiT 块的输出残差。只有 InfuseNet 和投影网络是可训练的。
结论
InfU是一种使用高级 DiT 进行身份保留图像生成的新框架。InfU 解决了现有方法在身份相似性、文本图像对齐、整体图像质量和生成美学方面的关键限制。该框架核心是 InfuseNet,它在保持生成能力的同时增强了身份保留。多阶段训练策略进一步提高了整体表现。综合实验表明,InfU 的表现优于最先进的基线。此外,InfU 是即插即用的,可与各种方法兼容,为更广泛的社区做出了重大贡献。InfU 在该领域树立了新的标杆,展示了集成 DiT 实现高级个性化生成的巨大潜力。未来的工作可能会探索可扩展性和效率的增强,以及将 InfU 的应用扩展到其他领域。
限制和社会影响。
尽管结果令人鼓舞,但 InfU 的身份相似性和整体质量还有待进一步提高。潜在的解决方案包括额外的模型扩展和增强的 InfuseNet 设计。另一方面,InfU 可能会引发人们对其促进高质量虚假媒体合成的潜力的担忧。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~