专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
庞门正道  ·  他把战斗民族的细腻,全都体现出来了~ ·  2 天前  
字体设计  ·  好看的字体要配上好的文字编排 ·  4 天前  
字体设计  ·  20 世纪 80 年代流行的标志 ·  4 天前  
优秀网页设计  ·  节后开工别慌!DeepSeek R1 ... ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

扩散模型,正在革新图像数据增强!

3D视觉工坊  · 公众号  ·  · 2024-10-13 00:00

主要观点总结

本文介绍了基于扩散模型(DMs)的图像增强技术的现状和挑战。文章涵盖了基于深度学习方法(DM)的图像增强技术的分类和现状,特别是使用预训练的扩散模型进行图像增强的方法和应用。同时,文章还讨论了使用扩散模型进行图像增强所面临的挑战和未来研究方向,包括计算成本、细粒度控制和可解释性、生成数据的多样性和真实性、模型过拟合和灾难性遗忘、评估指标和基准、伦理考虑和偏见等问题。

关键观点总结

关键观点1: 文章概述了基于扩散模型的图像增强技术的现状和挑战。

介绍了文章的主要内容和结构,包括图像增强技术的分类、使用预训练的扩散模型进行图像增强的方法和应用,以及使用扩散模型进行图像增强所面临的挑战和未来研究方向。

关键观点2: 介绍了基于深度学习方法(DM)的图像增强技术的分类。

按照任务/目标为准则,将基于深度学习的图像增强技术分为语义操控、个性化与适应、应用特定增强等类别,并概述了各类方法的研究现状。

关键观点3: 详细阐述了多种概念操作方法在研究如何使用预训练的Stable Diffusion(SD)模型进行图像增强的工作。

包括使用文本提示、网络检索的图像或目标对象的高频图来指定新对象,并将这些对象与场景中的期望位置进行融合,生成合成图像的方法。

关键观点4: 讨论了使用扩散模型进行图像增强所面临的挑战和未来研究方向。

包括计算成本、细粒度控制和可解释性、生成数据的多样性和真实性、模型过拟合和灾难性遗忘、评估指标和基准、伦理考虑和偏见等问题,并提出了一些解决这些挑战的方法和研究领域。


正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions

作者:Panagiotis Alimisis, Ioannis Mademlis, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis, Georgios Th. Papadopoulos

原文链接:https://arxiv.org/abs/2407.04103

1. 摘要

图像数据扩充构成了现代计算机视觉任务中的关键方法,因为它可以促进提高训练数据集的多样性和质量;从而提高机器学习模型在下游任务中的性能和鲁棒性。并行地,增强方法也可以用于以上下文和语义感知的方式编辑/修改给定图像。扩散模型(DMs)是生成人工智能(AI)领域中最新和最有前途的方法之一,已成为图像数据增强的强大工具,能够通过学习底层数据分布来生成逼真和多样化的图像。本研究实现了对基于数据挖掘的图像增强方法的系统、全面和深入的回顾,涵盖了广泛的策略、任务和应用。特别是,对DMs的基本原理、模型结构和培训策略进行了全面的分析。随后,介绍了相关图像增强方法的分类,重点是关于语义操作、个性化和自适应以及特定应用增强任务的技术。然后,分析了性能评估方法和相应的评估指标。最后,讨论了该领域当前面临的挑战和未来的研究方向。

2. 引言

现代计算机视觉领域主要由所谓的深度学习(DL)范式主导,该范式依赖于大规模深度神经网络(DNNs)的使用。迄今为止,DNNs在广泛的视觉理解任务中表现出了卓越的性能。然而,这种卓越的视觉解释和推理能力伴随着对更大规模和足够多样化训练数据集需求的增加。另一方面,随着图像分析任务的日益复杂和苛刻,DNNs的稳健泛化能力受到训练数据量、多样性和潜在偏差的限制。因此,数据需求已成为一个相当突出的主题,因为足够的训练样本量对于充分利用DNNs的能力至关重要。相反,现实世界中的图像数据集,特别是针对特定应用领域的数据集,在这些方面往往存在不足,甚至包含被证明本质上冗余的完全相关的训练图像。

图像增强通过自动创建每个训练图像的额外变体并利用它们来增强训练集,构成了一种常见且便捷的方法来缓解数据集限制带来的问题。通常,生成的变体在外观上存在差异,但保留了与原始图像相同的语义内容。通过此类合成图像扩展训练数据集可以增加其多样性,并在许多情况下提高在其上训练的DNNs的学习和识别性能。这种行为源于图像增强在训练DNN时本质上充当了额外的正则化机制,从而有助于防止过拟合。

传统的图像增强方法,如几何变换(如图像旋转、翻转、裁剪、缩放、水平/垂直平移、挤压等)和颜色空间调整或光度变换(如模糊、锐化、抖动等)仍然非常普遍。可以将多种此类变换组合在一起,以便从原始数据集中生成更广泛的增强图像集。这些方法利用领域知识来生成与初始图像相似的合成示例。最近,在这一总体趋势下提出的图像增强方法包括一系列策略,用于系统地破坏原始图像以生成增强变体。这类方法包括但不限于:a)“mixup”,它使用训练图像对及其标签的凸组合;b)“cutout”,它随机遮挡输入图像的方形区域;c)“cutmix”,它通过用第二张图像的区域遮挡第一张图像来随机组合两张训练图像(反之亦然);d)“patchshuffle”,它使用核滤波器在滑动窗口中随机交换像素值。 推荐课程: 全搞定!基于TensorRT的部署+CUDA加速

然而,上述相对简单直接的增强方法的有效性正受到当代图像分析需求复杂性和可变性的日益挑战。虽然这些策略在增加简单任务的数据多样性方面可能有效,但它们大多无法捕获高维图像数据中潜在的结构和复杂关系。此外,其中许多方法需要特定领域的知识和特定于数据集的校准,以便正确应用。此外,DNNs对大型训练数据集和有效正则化的需求不断增长,使得图像增强成为现代机器学习的一个至关重要的组成部分。

与通过操作现有图像来生成变体的传统方法不同,扩散模型(DMs)可以通过合成新的、看起来逼真且合理的图像来轻松用于图像增强实践。DMs构成了一类复杂的生成性DNNs,擅长隐式地建模潜在的数据生成分布和复杂图像的结构。这种能力使它们能够基本上从其训练数据集的分布中采样出虚假的新图像,这些图像同时具有多样性、高度真实性和代表性,能够涵盖未见数据场景,因为它们包含了微妙的细节并保留了原始数据集的固有结构。因此,它们可以直接用于有意义地增强后者。

DMs的学习范式依赖于对训练图像迭代地应用噪声,并随后学习逆转该过程,与竞争性的生成模型(如生成对抗网络)相比,在图像增强方面显示出了巨大的潜力。此外,DMs的最新进展使得能够通过类别标签、文本描述或输入图像对图像合成过程进行条件化。这种用户控制水平允许进行有针对性的图像增强,生成满足当前任务特定要求的图像。

通过DMs和多模态策略(如文本条件图像创建)在生成性图像合成方面的最新进展,已经得到了在大型数据集上进行大规模预训练的补充,这符合Foundation Model(FM)趋势。这种方法使得预训练的DMs能够生成外观具有自然变化的图像(例如,改变卡车上涂鸦的设计,如图1所示),因此可以直接用于复杂的图像增强,而无需大量人力投入。

尽管最近在DMs应用于高级图像增强方面取得了进展和成就,但文献中相关的综述却很少。现有的综述要么侧重于传统的图像增强,要么对DMs进行了一般概述,而没有深入探讨它们在图像增强中的具体应用。例如,Mumuni和Mumuni(2022)的研究对图像增强方法进行了全面的分类,包括输入空间变换、特征空间增强、数据合成和基于元学习的方法。然而,它并没有涵盖DMs使用的最新进展。相比之下,Croitoru等人(2023)的工作提出了三个通用的扩散建模框架,这些框架基于去噪扩散概率模型、噪声条件分数网络和随机微分方程,但没有探讨它们在图像增强中的潜力。一些综述已经触及了DMs的效率方面或它们在特定领域(如医学成像)中的应用。然而,这些工作并没有提供DMs在各种计算机视觉任务中用于增强的全面概述。此外,最近的一项调查根据大型学习模型对增强方法进行了分类,包括基于DMs的方法,但并未专门针对它们进行讨论。

3. 图像增强扩散模型的分类

本节概述了基于深度学习方法(DM)的图像增强技术的现状。特别是,定义了各种方法的分类,并在图2中以图形方式进行了说明。更具体地说,以每种方法的任务/目标为准则,基于深度学习的图像增强方法可以初步分为以下几类(每类还可以进一步细分为子类):

• 语义操控:目标是在保持图像主要语义内容的同时,引入细粒度的上下文感知修改。

• 个性化与适应:目标是改变图像的外观,以更好地符合特定数据集、任务、要求或用户偏好。

• 应用特定增强:目标是利用领域特定知识来规范增强过程,即引入仅对给定应用(如医学成像、面部识别等)有意义的修改。

作为上述分类的补充,图3展示了包含近期关键的基于深度学习的图像增强方法的时间线表示。每个条目都对应一项对研究领域产生重大影响的里程碑式工作。自然,更近期的工作与更复杂和先进的深度学习模型/架构相关联,也带来了更优的性能。此外,表1紧凑地总结了最重要的工作,并考虑了它们所属的类别和子类。

4. 图像增强领域的DM方法

多种概念操作方法专门研究如何使用预训练的Stable Diffusion(SD)模型在图像中放置物体,这些方法通常无需额外训练。特别是,它们通过文本提示、从网络上检索的图像或目标对象的高频图来指定新对象,并将这些对象与场景中的期望位置(通过对比语言-图像预训练(CLIP)生成)进行缝合,以将其放置在输入图像的背景中。新物体可能会通过CLIP嵌入相似性来检查语义一致性。例如,Chen et al.(2024c)中的方法采用身份特征提取(使用自监督的DINOv2模型)、细节特征提取和特征注入,将ID标记和细节图输入到预训练的SD模型中作为指导,以无缝地将目标对象融入场景中,生成最终的合成图像。此外,它还支持额外的控制,如用户绘制的掩码,以在推理过程中指示对象的期望形状。

Song et al.(2022)中的方法调整了预训练的SD模型,以实现对象在场景中的真实融合。它使用了一个内容适配器模块,该模块将输入图像对象的视觉特征映射到文本嵌入空间,以调节SD。该模型首先在图像-文本对上进行预训练以学习语义,然后使用SD进行微调以保持对象的外观。SD模型接收背景图像和对象嵌入来生成合成图像。图4展示了一个示例,其中比较了不同方法在目标图像的特定位置添加对象的效果。第一列显示了期望的对象,第二列显示了目标图像和对象的期望位置。

“Composer”和“Stable Artist”等方法通过利用潜在空间中的操作,为图像生成过程提供了细粒度的控制。“Composer”将图像分解为具有代表性的因素,如文本描述、深度图、草图、颜色直方图等,并训练了一个受这些因素条件约束的扩散模型(如Guided Language to Image Diffusion for Generation and Editing),允许通过重新组合上述因素来自定义内容创作。“Stable Artist”使用语义指导(SEGA)来引导扩散过程沿多个与编辑提示相对应的语义方向进行,从而能够在不使用掩码或微调的情况下进行细微的编辑以及构图和风格的更改。SEGA允许用户通过计算原始提示和编辑提示之间噪声估计的引导向量,并将这些向量应用于无条件噪声估计的偏移,来控制潜在空间的表示。

像SD这样的大型文本到图像(T2I)模型也可能会出现不期望的行为或生成不适当的内容,如受版权保护的艺术品或色情图像。为了解决这些问题,已经提出了多种方法,这些方法可以归纳为四个主要类别:

图像后处理:这些方法在生成过程后从生成的图像中过滤出不适当的内容。

推理引导:这些方法在推理过程中引导扩散过程,以避免生成不期望的概念。例如,Safe Latent Diffusion定义了一个“不安全”的文本概念,并使用它来引导扩散过程,避免生成不适当的内容。

图像修复:这些方法从图像中移除不期望的对象或区域,并用适当的内容填充缺失部分。它们通常使用掩码来指定要修复的区域。

模型微调:这些方法对预训练的扩散模型进行微调,以防止其生成不期望的概念。它们经常使用诸如概念擦除、自蒸馏或退化调优等方法,从模型的已学习表示中移除不需要的概念。

5. 挑战与未来研究方向

使用基于扩散模型(Diffusion Models, DMs)的方法进行图像增强,是提升训练数据集多样性和质量的一种有前景的方法。然而,尽管该领域在近期取得了迅速进展和显著成就,但仍存在多个待解决的开放挑战,这些挑战同时也指明了未来的研究方向。这些挑战大致可分为两类:一类是一般性的,涉及DMs的普遍应用,而不特定于某个应用场景;另一类是对图像增强特别重要的挑战。

5.1 计算成本与效率

应用任何基于DMs的架构时,一个显著的问题是其高昂的计算成本。特别是,DMs需要大量的计算资源,并且在训练和推理过程中可能非常耗时,这可能会延迟其开发和部署。相比之下,经过训练的生成对抗网络(Generative Adversarial Network, GAN)生成器可以直接合成输出图像,即只需一次前向传播。DMs的迭代去噪过程使得这类方法难以扩展到现实世界的应用、大型数据集和复杂任务中。例如,在LAION-5B数据集上训练一个稳定扩散(Stable Diffusion, SD)模型需要超过20万GPU小时,且仅使用了一个A100 40GB GPU。诸如DDIM和DPM-Solver++等方法旨在加速采样过程并提高效率。然而,需要进一步研究以开发更高效的架构和采样方法,以在降低计算开销的同时生成高质量图像。

5.2 缺乏细粒度控制和可解释性

DMs的可解释性和可控性通常存在问题,这使得理解它们如何生成输出(例如,在给定特定条件下)变得具有挑战性。用户难以精确控制生成图像中的特定属性、对象或区域,这可能会阻碍这些方法在某些应用中的实用性。开发基于DMs的模型输出解释方法是研究的一个重要领域。无分类器指导、交叉注意力控制或空间条件(如掩码、区域等)等方法已被提出,以缓解这些问题并实现采样过程的控制。然而,该领域仍需进一步研究。

5.3 生成数据的多样性和真实性有限

最普遍的挑战之一是DMs生成的合成图像的多样性和真实性(相对)受限。虽然DMs在生成高质量图像方面展示了令人印象深刻的能力,但它们往往难以捕捉现实世界数据分布的完整多样性和复杂性。这一限制可能导致合成数据与真实数据之间存在领域差距,从而阻碍使用生成数据训练下游任务(如图像分类和对象检测)的有效性。迄今为止,已引入了几种方法,旨在通过采用提高生成样本多样性和真实性的方法来解决此问题,例如使用语言增强和后过滤(如基于CLIP的过滤)。然而,需要更加深入和密集的研究来开发能够跨不同领域生成真正多样化和真实合成数据的高级方法。

5.4 模型过拟合和灾难性遗忘

本研究中涵盖的许多方法面临的最常见挑战之一是模型过拟合和灾难性遗忘。特别是,过拟合发生在模型过于紧密地拟合训练数据,从而牺牲了对新、未见数据的泛化能力时。这在处理有限训练数据的情况下尤为成问题,这在医疗成像等领域中经常发生。另一方面,灾难性遗忘指的是可训练模型在针对新数据或任务进行微调时忘记之前学习的表示的趋势。这对于旨在将预训练模型适应特定领域或风格的方法来说是一个主要障碍。直接在有限数据集上微调大型模型可能会导致原始学习的知识结构迅速丧失。最近,一些旨在缓解这一问题的方法利用了各种方法,包括选择性参数更新、双流架构和仔细管理去噪过程,以在适应新任务或概念的同时保持模型的泛化能力。

5.5 评估指标和基准

评估基于DMs的图像增强的有效性本身就是一个挑战。传统的指标如FID和KID可能无法充分评估/捕捉生成样本的质量和多样性,特别是对于复杂或特定领域。此外,缺乏标准化的基准和评估协议使得比较不同方法和评估其泛化及增强能力变得困难。因此,开发更全面且既通用又特定于领域的评估指标,同时建立共同的基准和数据集,是未来研究的一个重要领域,以便进行更严格和一致的评估。

5.6 伦理考虑和偏见

大规模文本到图像(Text-to-Image, T2I)DMs通常训练于网络爬取的数据集上,这些数据集可能包含有害的刻板印象、冒犯性内容和与性别、种族、年龄等敏感属性相关的偏见。这些偏见可能会在生成的图像中被放大,导致不公平的表示并延续社会刻板印象。另一个伦理考虑是训练数据集中使用未经适当同意或归属的版权或私人数据。这引发了关于生成图像的所有权、合理使用以及潜在隐私侵犯的重大关切。

6. 总结

图像增强是现代计算机视觉中的一项基础任务,因为它允许通过逼真的合成样本来增强训练数据集,并允许对给定的参考图像进行自动的上下文和语义感知编辑等。扩散模型(DMs)在生成逼真且多样的图像方面展示了巨大的潜力,能够捕获高维图像数据中的复杂关系和结构。此外,通过使用类别标签、文本描述或视觉提示来条件化生成过程,可以实现有针对性的增强,生成符合当前任务特定要求的图像。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群







请到「今天看啥」查看全文