专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
四川大学本科招生  ·  寒假,川大的你,在哪里,有什么故事? ·  昨天  
四川大学本科招生  ·  寒假,川大的你,在哪里,有什么故事? ·  昨天  
兰州大学萃英在线  ·  年味变淡?我们何去何从 ·  2 天前  
浙江大学  ·  大换装!跟浙大一起迎接春天! ·  3 天前  
武汉大学  ·  武大 bot!没上春晚扭秧歌,但和省长握手了 ·  2 天前  
兰州大学萃英在线  ·  一夜鱼龙舞 ·  4 天前  
51好读  ›  专栏  ›  我爱计算机视觉

ACM MM 2024 | 基于逐步伪装学习的文本提示伪装实例分割

我爱计算机视觉  · 公众号  ·  · 2024-12-06 13:38

正文




关注公众号,发现CV技术之美




本篇分享 ACM MM 2024 论文 Text-prompt Camouflaged Instance Segmentation with Graduated Camouflage Learning ,基于逐步伪装学习的文本提示伪装实例分割。

  • 论文地址:https://cvteam.buaa.edu.cn/papers/2024-ACMMM.pdf
  • 代码地址:https://github.com/zertow/TPNet

引言

伪装实例分割 (CIS) 旨在无缝检测和分割与周围环境融合的对象。虽然现有的 CIS 方法严重依赖于使用大量精确注释数据的全监督训练,消耗了大量注释工作,但仍然难以准确分割高度伪装的对象。尽管伪装对象在视觉上与背景相似,但它们在语义上有所不同。

由于与图像相关的文本提供了明确的语义线索来强调这种差异,因此我们在本文中提出了一种新颖的方法: 第一个基于 Text-prompt的弱监督伪装实例分割方法 TPNet,利用语义区别进行有效分割。

具体而言,TPNet 分为两个阶段: 首先生成伪掩码 ,然后进行自我训练。在伪掩码生成阶段,我们使用预训练语言图像模型将文本提示与图像对齐,以获得包含伪装实例和特定文本提示的区域提案。此外,语义空间迭代融合模块经过巧妙设计,可将空间信息与语义洞察融合,迭代细化伪掩模。

在下一阶段,我们采用 渐进式伪装学习 ,这是一种简单的自训练优化策略,可评估伪装级别,以对从简单到复杂的图像进行序列训练,从而实现有效的学习梯度。

通过双阶段的协作,我们的方法在两个常见基准上进行了全面的实验,并展示了显著的进步,提供了一种新颖的解决方案,弥补了弱监督和高伪装实例分割之间的差距。


研究动机

伪装实例分割(Camouflaged Instance Segmentation, CIS)是一项专注于无缝检测和分割与周围环境融为一体的物体的任务。伪装物体与周围环境的惊人相似性使得这项任务比一般的实例分割任务更具挑战性。CIS在计算机视觉社区中引起了极大的兴趣,并在多个领域中证明了其价值,如野生动物保护、医学图像分割和工业缺陷检测。

近年来,得益于深度神经网络的强大感知能力,CIS取得了显著进展。然而,这些方法都是基于全监督学习的,这带来了挑战,因为精确标注伪装图像既困难又耗时。事实上,采用弱监督方法以避免全监督所需的大量精确标注的高成本已成为一种趋势。这种方法已在各种任务中得到应用,如物体检测、图像分割和视频物体分割。

这引发了一个思考: 我们能否在弱监督下探索CIS任务? 这种方法可以显著减轻精确标注伪装数据的挑战,具有深远的意义。然而,即使使用精确标注的数据进行全监督训练,仍然无法准确分割CIS中的伪装物体。

例如,图1第一行中隐藏在森林中的鸟由于其颜色与周围树叶非常相似,无法被Mask R-CNN有效分割。更不用说无监督方法如Cutler的表现令人失望。由于在CIS中缺乏在弱监督设置下进行的工作,因此引入适当的弱监督以准确区分前景和背景并实现精确的伪装实例分割是一个重大挑战。

图 1 无监督方法 CutLer (c) 和全监督方法 Mask R-CNN (d)都难以区分外观相似的伪装图像中的前景和背景。

为此,我们仔细观察了伪装图像本身的特征,并意识到尽管前景和背景在外观上非常相似,但它们在语义上是不同的。如图1第二行所示,尽管蜗牛的尾巴在颜色和纹理上与背景海滩非常相似,但它仍然可以清晰地被识别为一个独立的语义实例。

值得注意的是,文本提示已在伪装物体检测和开放词汇物体检测等任务中作为语义弱监督有效使用,展示了其显著的能力。这些任务进一步证实了引入语义弱监督的可行性和有效性。因此,本文首次利用文本提示作为弱监督来探索CIS。

此外,其他任务中的一些弱监督工作通常使用自训练方法来细化初始伪标签并获得最终结果。这些自训练方法通常将训练数据视为无序的,即样本在训练过程中被引入时不考虑其难度或复杂性。

然而,相关研究指出,使用无序样本进行训练并未充分利用训练潜力,而有序的训练数据集可能增强模型的能力和泛化能力。由于伪装图像与其他常规图像相比具有独特的特征,因此可以评估每张图像的伪装程度。受此启发,基于伪装程度的优化自训练方法是本文的另一个关键探索。

针对上述探索,我们提出了第一个基于文本提示的弱监督伪装实例分割框架TPNet,旨在减轻实例级像素标注的需求。TPNet利用伪装文本提示和图像同时使用语义和空间信息,采用两阶段过程: 生成伪掩码和自训练


方法

本文提出了一种文本引导的伪装实例目标解析方法及装置,旨在通过结合视觉和语义信息,提高对伪装对象的分割准确性。首先,文本提示图像匹配模块处理输入图像,识别伪装区域并生成初步的伪掩码。随后,语义空间迭代融合模块对伪掩码进行细化,通过融合语义和空间信息生成高质量的伪掩膜。最后,逐步伪装学习机制根据伪装程度的评估,采用由浅入深的策略,逐步训练模型以适应不同复杂度的伪装实例。

以往的无监督或弱监督学习研究经常依赖于诸如谱分解或类激活映射(CAM)等方法来进行图像分割。然而,这些方法存在局限性。例如,谱分解主要使用空间信息,可能没有充分利用分割的语义线索。同样,尽管CAM生成热图结果以识别相关图像区域,但它可能无法有效捕获精细的空间细节。尽管一个简单的方法是使用加权方法简单地结合这两种掩膜,但这种方法可能会影响生成掩膜的质量。

为此,我们提出了一个语义空间迭代融合模块,以适当地整合分别使用CAM和谱分解生成的语义和空间掩膜。其由三个主要组成部分构成: 语义掩膜生成器、空间掩膜生成器和迭代掩膜融合器。 其首先使用语义掩膜生成器和空间掩膜生成器从图像中创建掩膜。然后,迭代掩膜融合组件对这些掩膜进行迭代细化,以产生准确的伪标签。

此外,同一数据集中具有不同伪装程度的图像表现出不同程度的伪装。即使是同一语义实例,其伪装程度也可能因场景复杂性而显著不同。这种变化为伪掩膜生成的第一阶段带来了挑战,因为掩膜的质量直接受到伪装程度的影响。

随着伪装程度的增加,实现精确分割的难度增加,伪掩膜的质量相应降低。如果这些第一阶段生成的不够精细的伪掩膜直接用于典型的自监督训练设置,它们将无法充分利用数据的潜力,可能导致模型性能次优。受到人类学习过程和课程学习的启发,我们提出了一种基于伪装程度的梯度伪装学习机制,用于训练实例分割模型,该模型能够在从简单样本学习后,学会分割和学习高度伪装的样本。

我们提出的 核心机制是,在模型熟练处理简单样本后,逐渐引入更具挑战性的伪装样本进行训练。 这确保了在模型获得了足够的基础知识后才引入更困难的样本。这种梯度学习机制可以帮助模型更好地适应不同程度的伪装,并在不同伪装情况下提高其性能。


实验结果

根据表1中的实验结果,我们的方法TPNet在两个数据集上的分割性能方面全面超越了现有的无监督和点监督方法。

具体而言,我们的结果相较于表现最佳的无监督实例分割模型Freesolo ,在COD10K上的AP提高了 41%, 在NC4K上提高了 31.3%。 与点监督方法相比,TPNet的AP提高了 19.6%。 尽管与全监督方法相比仍存在差距,但TPNet的性能明显接近于Mask R-CNN 。

这表明TPNet有效地弥合了弱监督与伪装实例分割所需的高精度之间的差距。

我们还验证了SSIF中迭代融合技术的有效性。如图5所示,我们进行了包含一次、两次和三次迭代的实验,并观察到随着迭代次数的增加,伪装实例分割结果的质量显著提高。







请到「今天看啥」查看全文


推荐文章
四川大学本科招生  ·  寒假,川大的你,在哪里,有什么故事?
昨天
四川大学本科招生  ·  寒假,川大的你,在哪里,有什么故事?
昨天
兰州大学萃英在线  ·  年味变淡?我们何去何从
2 天前
浙江大学  ·  大换装!跟浙大一起迎接春天!
3 天前
兰州大学萃英在线  ·  一夜鱼龙舞
4 天前
电子商务研究中心  ·  【聚焦】乐视的致命“命门” 是疯狂的关联交易
8 年前