0. 论文信息
标题:OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
作者:Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
机构:University of Waterloo、University of Wisconsin Madison、M-A-P
原文链接:https://arxiv.org/abs/2411.07199
代码链接:https://github.com/TIGER-AI-Lab/OmniEdit
官方主页:https://tiger-ai-lab.github.io/OmniEdit/
1. 导读
通过在自动合成或手动注释的图像编辑对上训练扩散模型,指令引导的图像编辑方法已经显示出显著的潜力。然而,这些方法离实际应用还很远。我们确定了造成这一差距的三个主要挑战。首先,由于有偏见的合成过程,现有模型具有有限的编辑技能。其次,这些方法是用具有大量噪声和伪像的数据集训练的。这是因为应用了简单的过滤方法,如剪辑得分。第三,所有这些数据集都受限于单一的低分辨率和固定的纵横比,限制了处理真实世界用例的通用性。在本文中,我们介绍了omniedit,这是一个万能的编辑器,可以无缝地处理七个不同的图像编辑任务,具有任何纵横比。我们的贡献有四个方面:(1) omniedit通过利用来自七个不同专家模型的监督来训练,以确保任务覆盖。(2)我们利用基于由大型多模态模型(如GPT-4o)提供的分数的重要性抽样,而不是剪辑分数来提高数据质量。(3)我们提出了一种新的编辑架构,称为EditNet,以大大提高编辑成功率,(4)我们提供了不同纵横比的图像,以确保我们的模型可以处理任何图像。我们策划了一个测试集,包含不同长宽比的图像,伴随着不同的指令来涵盖不同的任务。自动评估和人工评估都表明omniedit可以明显优于所有现有的模型。
2. 引言
图像编辑领域,特别是在遵循用户指令对现实世界照片进行语义变换方面,已取得显著进展。近期,文本引导的图像编辑相较于传统方法,如基于掩码或区域的编辑,日益凸显其重要性。随着扩散模型的兴起,众多基于扩散的图像编辑技术应运而生。一般而言,它们大致可分为两类:(1)基于反转的方法提议通过反转扩散过程并在中间扩散步骤中操纵注意力图来实现零样本图像编辑,从而达到预期的编辑目标。(2)端到端方法提议对大规模图像编辑对上的现有扩散模型进行微调,以端到端的方式学习编辑操作。端到端方法通常比基于反转的方法性能更优,且更受欢迎。此外,还有Prompt2Prompt或基于掩码的编辑模型,如SD-Inpaint,以及DALLE-2/3。然而,这些合成数据生成管道存在显著偏差,导致以下局限:
编辑能力受限:合成数据深受底层生成模型的影响。例如,Prompt2Prompt在处理局部编辑(如添加、删除或替换对象)时力不从心,而SD-Inpaint和DALLE-2在全局编辑(如风格或背景变化)方面效果不佳。因此,在这些数据上训练的模型也继承了这些局限。
数据质量控制不佳:大多数方法使用简化的过滤机制,如CLIPscore或DINO-score,来自动选择训练样本。然而,近期研究表明,这些指标与实际数据质量的相关性较差,导致训练数据不尽如人意,进而对模型产生负面影响。
不支持不同分辨率:当前所有模型均在方形图像编辑对上训练,导致它们对非方形图像的泛化能力较差。
本文介绍了一种新颖模型OMNI-EDIT,旨在通过以下四项关键创新解决这些挑战:
从专家到通才的监督:我们提议通过学习多个专家模型的监督来训练一个通才编辑模型OMNI-EDIT。与以往依赖单一专家的方法不同,我们进行了广泛调查,并构建(或训练)了七个专家,每个专家专攻不同的编辑任务。这些专家为OMNI-EDIT提供监督信号。
推荐课程:
国内首个面向工业级实战的点云处理课程
。
重要性采样:为确保高质量的训练数据,我们采用大型多模态模型为合成样本分配质量分数。鉴于GPT-4o的计算成本,我们首先通过中型样本将其评分能力蒸馏到InternVL2中,然后使用InternVL2模型进行大规模评分。
EditNet架构:我们引入了EditNet,这是一种基于扩散Transformer的新型架构,它通过中间表示促进控制分支和原始分支之间的交互。该架构增强了OMNI-EDIT理解各种编辑任务的能力。
支持任意纵横比:在训练过程中,我们结合了不同纵横比和高分辨率的图像,确保OMNI-EDIT能够处理任意纵横比的图像,且输出质量不会下降。
3. 效果展示
使用OMNI-EDIT编辑高分辨率多比例图像。OMNI-EDIT是一种基于指令的图像编辑通用模型,能够在不同比例和分辨率下执行多样化的编辑任务。它在遵循指令的同时,还能保持原始图像的保真度。建议放大图像以获得更好的可视化效果。
在我们的初步研究中,我们为七个不同的期望任务整理了一些提示,以全面观察它们的成功率。表1展示了我们的发现,这表明由于底层合成管道的影响,这些模型在技能上确实存在偏差。
4. 主要贡献
我们整理了一个图像编辑基准OMNI-EDIT-BENCH,其中包含不同分辨率的多样图像和涵盖所有列出编辑技能的多样提示。我们进行了全面的自动和人工评估,以展示OMNI-EDIT相较于现有基线模型(如CosXL-Edit、UltraEdit等)的显著提升。在VIEScore等自动指标上,我们在感知质量和语义一致性方面均显著优于所有现有方法。我们还进行了人工评估,观察到相较于最佳基线编辑模型CosXL-Edit,OMNI-EDIT整体提升了20%。
5. 方法
InternVL2作为对GPT-4o的响应进行微调之前(右上)和之后(右下)的评分函数。在右上方,原始的InternVL2未能识别经编辑的图像中的异常失真。当经编辑的图像未能满足指定的编辑指令时,它也未能发现错误。在右下角,finetuned-InternVL2成功检测到这种故障,并作为一个可靠的评分函数。
6. 实验结果
我们在图5中与基线模型进行了定性比较。我们在OMNI-EDIT基准测试的一个子集上,展示了OMNI-EDIT与前四个基线模型的对比结果。我们的主要结果详见表3,其中提供了VIEScore,并对Top2基线模型和OMNI-EDIT进行了人工评估。OMNI-EDIT展示了其在不同比例和分辨率下处理多样化编辑任务的能力。结果尤其清晰锐利,特别是在添加/替换任务中,新内容被无缝整合。这凸显了Edit-Net设计在保持基础文本-图像生成模型原始图像生成能力方面的有效性。同样,在图5中,OMNI-EDIT独特地将一个清晰且独特的NASA标志添加到了T恤上。表3通过OMNIEDIT在评估模型中取得最高的感知质量(PQ)分数,证实了这一点。
我们强调了所提出的从专家到通用模型学习框架的有效性。与利用单一方法(通常是提示到提示的方法)生成合成数据的基线模型不同,这种方法通常会改变整个图像,掩盖任务特定数据。相比之下,OMNI-EDIT利用专家整理的任务特定数据,从而获得了更清晰的任务分布,并提高了对编辑指令的遵循度。表3中的VIEScore和人工评估均表明,我们的方法在准确遵循编辑指令和最小化过度编辑方面显著优于最佳基线模型。例如,基线模型经常误解任务意图,如图5所示,其中CosXL-Edit模型未能识别出移除任务,并错误地将添加鸟类解释为熊猫和鸟类之间的替换。
最后,基线模型在OMNI-EDIT基准测试上经常产生模糊图像,因为它们的训练分辨率仅限于512x512甚至256x256,并且在非方形比例上表现不佳。例如,在3:4的比例下,基线模型难以执行编辑。而经过多种比例数据训练的OMNI-EDIT,在Omni-Bench上遇到的不同比例下,都保持了强大的编辑能力,如图5所示。
7. 总结 & 未来工作
在本文中,我们指出了现有端到端图像编辑方法中的技能不平衡问题,并提出了一种新的框架来构建更全能的图像编辑模型。我们调研了该领域,并选择了几种方法作为我们的专家来合成候选对,并采用加权损失来监督单一的通用模型。我们的方法在各种编辑技能上均表现出显著的质量提升。在整个实验过程中,我们发现输出质量在很大程度上受到底层基础模型的影响。由于SD3的弱点,我们的方法尚未达到最高潜力。未来,我们计划使用Flux或其他更强大的基础模型,以探索在当前框架下我们能走多远。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球