专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
数据派THU  ·  白话版Scaling Laws for ... ·  昨天  
大数据分析和人工智能  ·  很多人都在讨论的“DeepSeek”,究竟是啥? ·  2 天前  
大数据分析和人工智能  ·  DeepSeek薪资曝光 ·  3 天前  
数据派THU  ·  清华大学大数据研究中心给您拜年啦! ·  3 天前  
大数据分析和人工智能  ·  还真是… ·  5 天前  
51好读  ›  专栏  ›  大数据文摘

ICLR'25 惊现[10,10,10,10]满分论文,ControlNet 一作张吕敏新作,Github 5.8k 颗星

大数据文摘  · 公众号  · 大数据  · 2024-12-02 12:00

主要观点总结

本文介绍了在ICLR 2025大会上的一篇满分论文,该论文来自张吕敏,涉及到AI绘图技术。这篇论文介绍了一种名为IC-Light的技术,能够控制图像照明,通过改变照片主体的光源和背景,将三者迅速融合在一张图片里。目前该项目已经获得大量关注和应用。除了IC-Light,作者还有其他出圈的项目,如LayerDiffuse等。文章还提到了作者的低调和坚持开源的精神,以及对AI绘画领域的贡献。

关键观点总结

关键观点1: IC-Light技术介绍

IC-Light是一项AI绘图技术,能够控制图像照明,通过改变照片主体的光源和背景,实现迅速融合。该技术分为文本引导和背景图引导两种方式,已经获得大量关注和应用。

关键观点2: 作者张吕敏的成就

张吕敏是IC-Light等项目的作者,他在AI绘画领域有着卓越的贡献。他2021年本科毕业于苏州大学,后来去斯坦福读博。在大学期间就开始研究AI绘画,并发表多篇论文。目前他的GitHub项目获得大量关注。

关键观点3: IC-Light技术的应用前景

IC-Light技术在AI绘画领域有着广泛的应用前景,可以应用于电商场景、模特拍照、照相馆的人物写真摄像、室内家居设计等领域。它能够轻易地解决主体、背景、光线的融合衔接问题,是AI绘画变成生产力工具的重要拼图。


正文

大数据文摘受权转载自夕小瑶科技说
 作者 | 兔子酱
这两天,ICLR 2025 的 discussion phase 临近截止,截止目前,惊现了一篇满分论文,4个审稿人同时打出了10分、10分、10分、10分,这是什么炸裂的存在?!
同时征服了所有的审稿人,都给出了最高档评级strong accept!


这篇论文来自AI绘图界的赛博佛祖——张吕敏,业内称他为敏神,他还是大名顶顶的ControlNet的作者。
而这次获得最高分的论文,是他半年前就在GitHub上开源的一个项目——叫IC-Light。
IC-Light,全称是"Imposing Consistent Light",就是控制图像照明,简而言之,动动嘴就能控制图片的光影效果。
目前,这个项目已经获得5.8K的star,非常火爆。它的牛逼之处就在于,可以随意控制照片主体的光源和背景,将主体、光源、背景三者迅速地融合在一张图片里,非常真实。
目前IC-Light支持两种控制方式:基于文本引导和基于背景图来引导。
对于任意一张照片,通过提示词迅速地改变光影效果;或者指定一张背景照片,重新打光,迅速地生成符合新背景环境光线的照片。

文本引导生成

Prompt: beautiful woman, detailed face, sunshine, outdoor, warm atmosphere 
提示:美女、细致的脸庞、阳光、户外、温馨的氛围 Lighting Preference: Right
照明偏好:右
Prompt: Buddha, detailed face, sci-fi RGB glowing, cyberpunk 提示:佛像、细致的脸部、科幻RGB发光、赛博朋克 Lighting Preference: Left
照明偏好:左
Prompt: beautiful woman, detailed face, light and shadow 
提示:美丽的女人,细致的脸庞,光影 Lighting Preference: Left
照明偏好:左

背景引导生成


在 ICLR 投稿之前,这个工作就已经开源了,最初只适配于SD1.5和SDXL,最近作者又推出了V2版本IC-Light V2 ,基于FLUX,具有 16ch VAE 和原生高分辨率。
V2版本细节保留能力远高于SD1.5的版本,具有更好的主体风格一致性。基于SD1.5有时候会对原始图像的风格进行修改,比如,下面这张图的生成效果。


V2的版本在保持主体风格一致性的前提下,生成完美融合光源背景的图片。


目前,作者发布了两种类型的模型:文本条件重新光照模型和背景条件模型。两种类型都需要前景图像作为输入。
如果想了解更多细节和想试玩的小伙伴,看这里~
Github链接V1版本 :
https://github.com/lllyasviel/IC-Light
V2 版本:
https://github.com/lllyasviel/IC-Light/discussions/98
敏神还贴心地放出了打光模型的体验地址,但是只能体验第一种文本引导的生成方式,想要什么图需要放在提示词文本里控制。
https://huggingface.co/spaces/lllyasviel/IC-Light8
另外,网上还有大神【Zho】做好了IC-Light 的 Colab 方案,也不需要排队等待,这个Colab把背景图引导的方式也支持上了,背景图片 + 简单提示词,就可以进行重新打光,地址在这里:
https://colab.research.google.com/drive/1-pXSpTH-zNhaAKFmMvh-xj7Zp9781L2f?usp=sharing
这个IC-Light是真的强。
就好比ControlNet的出现直接将Stable Diffusion从AI绘画玩具变成了可控的AI绘画工具一样。
IC-Light代表的是落地级的工具插件,直接把AI绘画工具干到生产力级别的神器!
有了这个神器,大量的AI绘图的场景,比如电商场景里千千万万件商品的拍摄、模特拍照,照相馆里的人物写真摄像,还有室内家居设计,这些需要主体和背景结合的图片内容,都能规模化批量生产。
因为它能够轻易地解决主体、背景、光线的融合衔接问题。
这将是AI绘画变成生产力工具的一块重要拼图。

满分论文的作者张吕敏


IC-Light、ControlNet这些项目是真的强,不过,我觉得更强的是他们的作者——张吕敏。
他2021年本科毕业于苏州大学,后来去斯坦福读博。
从大学开始就开始研究AI绘画,大一就发了paper了,本科期间一共发了10篇论文一作,都是AI绘画相关的。
本人非常低调,我去搜了一下,他连Google Scholar账号都没有注册,论文这么高产,大几百上千的citation早就有了。
他的GitHub项目主页是:
https://github.com/lllyasviel


动辄一个项目就几K的star,简直就是AI绘图届的顶流。
Paints-UNDO是一个将真实人类绘画行为建模到AI绘画模型中,生成更符合人类审美和创作风格的图像。通过分析人类在绘画过程中的操作,例如画笔的移动、颜色选择等,来学习人类的创作意图。然后,将这些意图融入到 AI 模型的训练中。
另一项出圈的项目是LayerDiffuse,给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG),区别于抠图,它是用模型生成透明图像。
能够十年如一日坚持在AI绘画领域深耕,重点是开源的,这一点非常值得我敬佩。
热爱+坚持+分享,永远是最动人的。
愿你和我都能在热爱的领域发光!


租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800

特别适合企业级应用
扫码了解详情☝


点「在看」的人都变好看了哦!
推荐文章
数据派THU  ·  白话版Scaling Laws for Precision 解读
昨天
大数据分析和人工智能  ·  很多人都在讨论的“DeepSeek”,究竟是啥?
2 天前
大数据分析和人工智能  ·  DeepSeek薪资曝光
3 天前
大数据分析和人工智能  ·  还真是…
5 天前
诗词天地  ·  最经典的四大名著对联,穿透人心
7 年前