|极市线上分享第127期 |
一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过
100
位技术大咖嘉宾,并完成了
126
期极市线上直播分享。
往期分享请前往
bbs.cvmart.net/topics/149
或直接
阅读原文
,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~
本次分享我们邀请到了
小红书创作发布团队算法工程师王浩帆
,为大家详细
介绍他们的工作:
InstantID: Zero-shot Identity-Preserving Generation in Seconds
GitHub:
https://github.com/InstantID/InstantID
项目主页:
https://instantid.github.io/
论文地址:
https://arxiv.org/abs/2401.07519
免费体验地址:
https://huggingface.co/spaces/InstantX/InstantID
Textual Inversion
、
DreamBooth
和
LoRA
等方法在个性化图像合成方面已经取得了重大进展。然而,它们在实际应用中受到高存储需求、耗时的微调过程以及需要多张参考图像的限制。相反,现有的基于
ID
嵌入的方法虽然只需要一次前向推理,但也面临着挑战:它们要么需要对大量模型参数进行广泛的微调,要么与社区预训练模型不兼容,或者无法保持较高的人脸保真度。
“为解决这些限制,我们推出了基于扩散模型的解决方案
—— InstantID
。我们的即插即用模块只需使用单张面部图像,就能熟练地处理各种风格的图像个性化,同时确保高保真度。为此,我们通过强语义和弱空间条件设计了一个新颖的
IdentityNet
(身份识别网络),将面部和地标图像与文本提示相结合,引导图像生成。
InstantID
展示了卓越的性能和效率,在身份保护至关重要的实际应用中是非常有益的。此外,我们的工作与流行的预训练文本到图像扩散模型如
SD1.5
和
SDXL
无缝集成,可作为一个适应性强的插件。”
时间
2024年2月29日(周四):
20:00-21:00
主题
小红书开源InstantID:高保真人像风格化的秒级生成
B站也将同步进行
http://live.bilibili.com/3344545
王浩帆
InstantX 团队成员,小红书创作发布团队算法工程师,从事可控条件生成领域的创新研究。硕士毕业于卡内基梅隆大学,代表工作包括 InstantID、Score-CAM 等。
1.
InstantID
为何掀起热潮
:
揭秘
InstantID
如何在短时间内迅速获得社区的广泛认可和支持
,以及它如何激
发用户和开发者的积极参与。
2.
个性化图像合成技术回顾:
回顾
Finetuning-free
和
Finetuning-based
方法的发展历程,分析
LoRA
、
Textual Inversion
、
DreamBooth
、
Face0
和
PhotoMaker
等技术的优缺点。
3.
InstantID 设计思路揭秘:
详细介绍如何利用强语义人脸特征替换
CLIP
的弱对齐特征,并在
Cross-Attention
中作为
Image Prompt
嵌入,以及
IdentityNet
如何实现对人脸的强语义和弱空间条件控制。
4.
InstantID 应用案例解析:
展示
InstantID
在多视角合成、
ID
插值、表情定制等多样化应用中的实际操作,探讨其在个性化内容创作和商业应用中的潜力。
5.
讨论与提问:
解答关于使用多个参考图像、推理速度提升、失败案例分析等普遍性问题,探讨在不同硬件配置下训练
InstantID
的可行性,以及数据集规模和质量对模型性能的影响。
同时,展望未来工作的方向,包括摆脱面部关键点的依赖和
IP-Adapter
与
ControlNet
的结合。
极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办
126
期线上分享
。近期在线分享可
点击以下标题
查看: