专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
白话区块链  ·  以太坊和Solana哪个更像当年的EOS? ·  昨天  
疯狂区块链  ·  如何才能不返贫? ·  2 天前  
跟宇宙结婚  ·  节目更新:跟宇宙结婚悄悄话 vol.243 ... ·  3 天前  
疯狂区块链  ·  今年楼市不会好的三大原因 ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

精度暴涨64.3%!重新定义数据增强!使用生成式AI全面提升深度学习模型!

3D视觉工坊  · 公众号  ·  · 2024-10-08 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

当面临新条件,如攻击、天气变化和地理位置变化时,深度学习模型往往在领域适应方面表现挣扎。这一问题在稀有鸟类或动物物种识别等应用中尤为明显,其中训练数据不足可能会阻碍模型的有效泛化能力。虽然从多样化领域收集更多训练数据有助于缓解此问题,但收集高质量且相关的数据本质上成本高昂。大量研究工作已致力于基于几何变换的传统数据增强方法,包括裁剪、平移和旋转。然而,这些技术的局限性在于可能改变主体特征,并且图像多样性有限。另一方面,生成式人工智能领域的最新进展通过使用大型语言模型(LLMs)、视觉语言模型(VLMs)和图像合成模型为数据增强提供了新的机遇,特别是从自然语言合成逼真照片图像的能力。这些模型在各种任务中表现出色,如文本到图像的生成、图像到图像的修改和图像修复。最近的研究表明,大规模扩散模型可以微调以生成增强图像,从而改进识别任务。虽然微调图像生成模型进行数据增强是有效的,但其复杂性和在不同数据集上复制的需求往往使其不切实际。文献提出了使用文本引导技术增强逼真图像的方法,无需模型微调。然而,我们的案例研究表明,扩散模型仅凭文本提示难以有效增强有用的训练数据,生成的图像往往偏离了预期的主体。

在本文中,我们提出了一个名为AGA的自动化生成数据增强框架,以增强训练数据集,从而提高细粒度分类性能。我们的方法旨在在增强过程中最小程度地改变主体,同时引入背景的变化。AGA使用图像分割来隔离主体,预训练的大型语言模型来生成多样化的背景描述,稳定扩散模型来创建多样化的背景,并将主体与背景无缝融合。自动背景图像生成面临两大挑战。首先是创建多样化的背景而不破坏前景,这是现有方法常常忽视的问题,而AGA的主体隔离技术有效解决了这一问题。另一个挑战是自动生成正确的LLM提示。AGA通过包含一个配备层次化指令、空间和时间模态修正器的提示生成引擎来解决这一问题。该引擎在使用少量示例指令库的同时,自动为LLM生成多样化的文本提示,最终确保生成背景的多样性。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Data Augmentation for Image Classification using Generative AI

作者:Fazle Rahat, M Shifat Hossain, Md Rubel Ahmed, Sumit Kumar Jha, Rickard Ewetz

机构:Florida International University、University of Florida

原文链接:https://arxiv.org/abs/2409.00547

2. 摘要

比例定律表明,人工智能模型的性能与可用数据量成正比。数据扩充是扩大数据集规模的一种有前途的解决方案。传统的方法侧重于使用旋转、平移和调整大小来增强。最近的方法使用生成式人工智能模型来提高数据集的多样性。然而,生成方法与诸如主题腐败和不相关工件的引入的问题相斗争。本文提出了自动生成数据扩充算法。该框架结合了大型语言模型(LLM)、扩散模型和分割模型的效用来扩充数据。AGA保留了前景的真实性,同时确保了背景的多样性。具体贡献包括:I)基于片段和超类的对象提取,ii)使用即时分解的具有组合复杂性的即时多样性,以及iii)仿射主题操纵。我们在三个有代表性的数据集ImageNet、CUB和iWildCam上用最新的SOTA技术对AGA进行了评估。实验评估表明,与基线模型相比,分布内和分布外数据的准确性分别提高了15.6%和23.5%。与基线相比,SIC得分也提高了64.3%。

3. 效果展示

使用文本到图像、图像到图像、图像修复以及我们在ImageNet10上的方法进行示例增强。文本到图像和图像到图像生成的图像显著丢失了前景信息。图像修复提供了相对较好的结果,但会通过对前景进行不必要的修改而损坏前景。AGA能够在保持前景信息与原始图像一致的同时,生成多样化的背景图像。

4. 主要贡献

本文的主要贡献如下:

• 我们引入了AGA,一个创新的数据增强框架,该框架专注于多样化背景同时保持感兴趣主体的各种仿射变换,从而构建出鲁棒且可解释的分类器。

• AGA利用大型语言和视觉模型自动创建多样化的训练图像,无需手动用户输入或微调。 推荐课程: 国内首个Halcon深度学习项目实战系统教程

• 在ImageNet数据集的缩减版本上,AGA将细粒度分类的准确率从78.4%提高到93.6%。

5. 基本原理是啥?

在本节中,我们介绍了AGA框架的方法论。该框架的输入是一张图像及其对应的类别名称。输出则是基于提供输入而生成的增强图像。该框架主要通过三个主要步骤来增强图像:i) 通过生成掩码图像来隔离主体;ii) 为不同背景生成特定领域的标题;iii) 增强图像编辑以结合前景和背景。AGA框架的概述如图2所示。

6. 实验结果

7. 总结 & 未来工作

我们引入了AGA,这是一种新颖的数据增强方法,旨在解决细粒度图像识别中的数据稀缺问题。我们的方法集成了图像分割、自动化背景标题生成和基于扩散的图像合成技术,以在保持主体完整性的同时使背景多样化,从而增强训练数据集,提升细粒度分类性能,特别是在数据量较少的情况下。通过Grad-CAM归因方法可以看出,AGA揭示了额外生成的数据有助于深度学习模型专注于预期的主体区域。该框架还展示了在分布外数据上的强大泛化能力。然而,AGA在适当主体和背景方面存在兼容性问题,有时会将主体与不合适的背景结合,从而产生视觉上不一致的合成图像。这一局限性凸显了未来研究探索新方法的潜力,以生成既保持主体完整性又与背景兼容的图像。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云







请到「今天看啥」查看全文