据技术报告介绍,SeedEdit 基于图像生成常用的扩散模型,但又能够根据任何文本提示修订给定的图像。该工作发现,AI 生成式图像编辑的关键,在于在保持原始图像(图像重建)和生成新图像(图像生成)之间的平衡。
这就意味着若想让图像生成的 AI 模型拥有修图能力,就需要在大量相应的成对数据上训练这个模型。因此,SeedEdit 采取的方式是从一个弱生成器(文本到图像生成模型)开始,再在上述两个方向之间创建多样化的图像对,以此来逐步训练模型,最终获得我们所需要的平衡。
下图是 SeedEdit 的框架:首先将文本到图像模型(T2I)视为弱编辑模型,再改造它生成的带有提示的新图像来实现「编辑」。随后,把这个弱编辑模型反复进行蒸馏和对齐,以最大程度继承再生成能力,同时提高生成后图像的一致性。
最近一段时间,扩散模型生成的图像虽然效果越来越好,但其内容通常是不可控的。通过 SeedEdit,字节的研究人员尝试在不引入新参数的情况下,将图像生成的扩散模型转化成了图像编辑模型。
与此前一些 AI 图像编辑的方法相比,SeedEdit 能够实现更丰富的效果和编辑能力,也可以实现图片的连续编辑 —— 它让扩散模型不再是完全随机进行生成,而是可以像常规的工具一样一步步来,做出你想要的效果。
使用 SeedEdit 进行一句话编辑的图片。
把 SeedEdit 方法与几种业内先进的图像编辑方法进行比较,总体而言,新的方法在两个基准上都显示出了明显更高的分数。同时也可以观察到 HQ-Edit 数据集中 CLIP 图像有更高的相似性,这意味着原始图像的内容得到了更好的保留。
基准测试成绩。
与一些开源方法比较,SeedEdit 的优势在于能够理解人们提出的相对模糊的指令,并输出较为细致准确的结果。
不同方法的输出结果。
即使是和 DALL-E3、Midjourney 这样已经商用的先进图像生成器(带编辑功能)相比,SeedEdit 也可以相对更紧密地跟随人们给出的指令。
DALL-E3、Midjourney、SeedEdit 之间,不同图像生成工具的效果对比。
不得不说,字节提出的方法别具特色,相比业内现有技术又向前跨出了一步。
看到这里,你可能突然意识到,AI 领域的风向正在发生转变。
一直以来,很多关注 AI 绘画的人总是在期盼着 DALL-E、Midjourney 等海外 AI 创业公司的技术更新。而随着国内的技术不断迭代,我们已经见证了一系列先进的生成式 AI 应用在外网刷屏。或许到了新技术落地的节点,我们目光更应该向近处看。
其实仔细想来,作为全球短视频领域的佼佼者,字节跳动在生成式 AI,特别是图像生成领域上的优势可谓得天独厚。
早在豆包大模型诞生前,字节就一直在关注 AI 图像生成相关技术,并持续增加研发投入。豆包大模型尽管入场时间不是最早,但凭借优秀的效果和独特的社交体验迅速成为了国内最热门的大模型之一。到今年 9 月,豆包大模型日均生成图片 5000 万张。
能够迅速做出生成式 AI 应用爆款的字节,其所做的努力并不只是在应用层面上创新。字节大模型团队最近的前沿研究,已经在不断挑战 AI 领域的技术难题。
在工程层面上,仅从今年下半年起,我们在社交网络上就不时可以刷到字节的新成果,比如可以生成长篇漫画、有剧情视频的 StoryDiffusion:
视频生成模型 PixelDance 和 Seaweed:
到上星期发布的,音频加人脸视频生成技术 Loopy:
再就是今天 SeedEdit 所展示的,方便好用的图片编辑能力。
在 AI 基础研究层面,字节大模型团队的工作也在不断获得认可。其提出的单目深度估计模型 Depth Anything V2 入选了苹果的 CoreML 模型库。该模型可应用在自动驾驶、3D 建模、增强现实、安全监控以及空间计算等领域。
上周,字节豆包大模型团队公布的一项系统性研究,首次在业界通过大规模实验深入探索了视频生成模型能否真正理解物理规律,得到了谢赛宁、Gary Marcus,以及图灵奖得主 Yann LeCun 等 AI 学者的转发和点赞。
一篇篇论文、一个个项目的积累,不仅撑起了如今豆包大模型的热度,也在悄然推动着学界的前沿探索。
SeedEdit 团队表示,其实现阶段模型在复杂内容和精细控制层面上还有改进空间。下一步要提升的还有真实图片风格保持、ID 一致性、编辑准确性、长时序内容(如漫画生成)等等方面。除此以外,SeedEdit 还将会开放多轮复杂编辑的功能。
期待 SeedEdit 和豆包团队带来新的惊喜。