专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

涂鸦、边界框和点通吃，SAM-COD在伪装目标检测中的应用！

FightingCV · 公众号 · · 2024-08-31 09:00

正文

关注“ FightingCV ”公众号

回复“ AI ”即可获得超100G人工智能的教程

大部分伪装目标检测（COD）方法严重依赖 Mask 标注，这些标注的获取既耗时又费力。现有的弱监督COD方法与全监督方法相比性能显著较差，难以同时支持现有的所有伪装物体标签类型，包括涂鸦、边界框和点。

即使在 Segment Anything Model （SAM）中，处理弱监督COD仍然是一个问题，而且通常会遇到涂鸦标签的提示兼容性、极端响应、语义错误响应和不稳定特征表示等挑战，从而在伪装场景中产生令人不满意的成果。为了减轻这些问题，作者提出了一种统一的COD框架，称为SAM-COD，该框架可以支持任意弱监督标签。作者的SAM-COD利用提示调整器根据SAM处理涂鸦作为提示。同时，作者引入了响应过滤器和语义匹配模块来提高在COD提示下SAM获得的 Mask 的质量。

为了减轻不准确 Mask 预测的负面影响，作者采用了新的提示适应性知识蒸馏策略，以确保可靠的特征表示。为了验证作者方法的有效性，作者在三个主流COD基准上进行了广泛实证实验。结果表明，作者的方法在弱监督和甚至全监督方法方面优于最新的成果。

1 Introduction

伪装目标检测（COD) 旨在从各种背景中检测潜在的物体，其视觉外观无法察觉，并与环境高度相似。它在实际应用[12,17,18,9,20,10]中具有巨大的潜力，如物种发现，医学图像分割[7]和动物追踪[7]。考虑到口罩标注作为全监督学习标签[8]并非总是可得，如每个图像耗时60分钟[8]，弱监督标签作为一种有吸引力的替代方案，如涂鸦（约10秒）[15]，边界框（约5秒），点（约2秒）等，具有很大的潜力。

然而，目前很少有工作研究如何利用弱监督标签进行COD。仅有两项工作，CRNet[15]使用了涂鸦标注，WS-SAM[14]使用了涂鸦和点的标注来解决弱监督COD。然而，它们的表现相比全监督COD方法有显著差距。因此，在本文中，作者试图早期探索一种针对不同弱监督标签的COD的统一解决方案，包括_点_，_边界框_和_涂鸦_等，使其性能可与全监督COD方法相媲美，结果如图1所示。

尽管Segment Anything Model（SAM）[19]可以直接为WSCOD提供候选项，但使用SAM辅助解决WSCOD任务并非易事。

SAM主要面临四个典型挑战：

1)涂鸦的提示兼容性：SAM主要支持矩形、点或文本类型输入，但并不支持现有WSCOD中适用的涂鸦输入，如图2（a）所示。其次，直接使用点输入并不总是产生令人满意的结果。探索如何使WSCOD中不同类型的标注与SAM兼容是很有必要的。

2)极端响应：对于COD，SAM在使用非常小的区域或整个背景区域时容易产生错误响应，如图2（b）所示。这是由于伪装物具有各种仿生图案、斑点和低对比表面纹理的保护特征所致。

3)语义错误的响应：SAM也容易对伪装物产生错误的语义响应，包括：a)非伪装目标响应：SAM在相关数据训练不足，无法理解伪装语义的情况下发挥作用。b)局部响应：SAM具有丰富的分割粒度，使其容易生成局部语义响应，如图2（c）所示。

4)不稳定的特征表示：WSCOD任务的图像在非常相似的情况下可能表现出完全不同的性能，如图2（d）所示。这是由于COD场景具有挑战性，SAM的基础模型和学生的模型在规模上有显著差异。直接使用有限监督进行蒸馏会导致不稳定的学习特征。

在这项工作中，作者提出了一个支持任意弱监督标签输入的统一弱监督COD框架 SAM-COD ，其中，例如由大型视觉模型SAM输入的点、框或涂鸦等任意弱监督标签。作者可以舍弃使用完全监督标签对SAM进行微调和探索使用弱监督标签来提示SAM。为了应对上述问题，作者首先引入了提示 Adapter ，它抽取出涂鸦标签的骨架，然后将其以离散的方式采样为点，使其与SAM兼容。接下来，作者制定了响应过滤器，通过计算 Mask 与图像大小的比率来从SAM中过滤掉 extreme 响应。然后，作者创建了一个语义匹配器，通过语义熵计算 Mask 的语义得分，并结合SAM的分割得分来选择平衡分割细节和准确语义的面部。根据不同的提示类型，作者设计了一个具有提示适应性的知识蒸馏器，通过引入COD任务的任务导向知识来增强知识蒸馏，提高从SAM蒸馏出的特征的质量。

总的来说，作者的贡献如下：

作者提出了一种新颖的统一框架，继承自SAM，该框架将三种监督标签（即涂鸦、边界框和点）集成到一个强大的无监督遮挡目标检测器中。据作者所知，这是作者首次支持当前所有无监督标签的WSCOD方法。
作者设计 Response Filter 和 Semantic Matcher 模块，以解决 SAM 在 COD 场景中产生不可靠的错误响应的问题，以获得高质量的物体 Mask 。
作者提出了一种 Prompt-适应性知识点蒸馏（PKD）以解决 WSCOD。所蒸馏的知识可以根据三类输入提示（即涂鸦、边界框和点）自适应地学习，这通过关注 Mask 场景中值函数的高值区域的知识蒸馏在 WSCOD 中得到加强。
在三个广泛使用的 COD 数据集上进行大量实验，证明作者的方法具有最先进的表现。根据作者的知识，这是首个在所有无监督标签下，相比全监督方法都具有优势的 WSCOD 方法。此外，该框架在迁移到显著目标检测（SOD）和多面体分割任务时也取得了良好的结果。

2 Related Work

伪装目标检测 。COD专注于检测图像中的伪装目标。SINet [8] 提出了一种COD数据集，其中包含了10000张伪装图像，每张图像的平均标注时间约为60分钟。[24, 27] 通过精心设计的特征探索模块，试图从背景中挖掘伪装目标的不显眼特征。ZoomNet [25] 引入了混合尺度的三元组网络，以解决COD所提出的挑战。上述的COD方法依赖于具有像素级标注的大规模数据集。然而，界限模糊使得像素级标注的伪装目标成为一项耗时且劳动密集的任务。CRNet [15] 是第一个引入S-COD数据集的，它使用涂鸦标注作为弱监督。WS-SAM [14] 使用涂鸦和点标注作为弱监督，但没有构建具有点标注的数据集。此外，框标注尚未得到探索。因此，作者提出框和点标注来构建COD数据集。作者还提出第一个同时支持各种弱监督标签且超过完全监督方法的第一种模型。

SAM在COD中的使用 。SAM [19] 在传统分割任务上表现出色，在某些时候甚至能匹配完全监督方法的表现，在零样本设置下。[3, 28] 表明，尽管SAM在通用目标分割上显示出前景，但其COD任务性能受到限制。SAM-Adapter [3] 采用了一种 adaptor 以进行有效的调整，而不是依赖传统的微调方法。这种适应性使得SAM可以适应COD的数据分布，从而降低了微调的成本，同时增强了SAM在COD中的性能。WS-SAM [14] 将三个增强的图像通过SAM处理，并将获得的 Mask 融合以获得最终的对齐标签。但是它的缺点也很明显：1） SAM的推理时间被翻倍了2） SAM的潜在能力并未得到充分利用，而是只使用了最高分数的 Mask 代替前三的 Mask 。作者应用SAM设计了一个统一的框架，支持点、框和涂鸦标注。

知识蒸馏 。知识蒸馏（KD）[1, 16] 主要用于训练一个较小的网络去模仿较大网络的输出以压缩模型。DINO [2] 引入了一种简单的不监督方法，可以描述为无需标签的自蒸馏模型以优化表示学习。WSCOD（无标签伪装目标检测）下的蒸馏与传统蒸馏不同，因为1）COD场景具有挑战性，2）监督较少。这使得传统蒸馏方法不适用，目前还没有探索WSCOD任务下的蒸馏方法。所以，作者为WSCOD任务设计了一种提示自适应的知识蒸馏方法。

3 Approach

所提出的框架的整体结构如图3所示。提示 Adapter 用于处理涂鸦以适应SAM提示输入。响应过滤器用于处理SAM在提示下出现的极端响应情况。语义匹配器用于改善SAM由于缺乏与COD相关的语义而出现的响应问题。在WSCOD中的知识蒸馏采用了提示适应的知识蒸馏方法。

Prompt Adapter

作者使用三种弱监督标签作为提示符：点、框和涂鸦。SAM直接支持点、框作为输入提示符。不幸的是，SAM不支持涂鸦类型的提示符。因此，作者设计了一个提示符 Transformer ，将涂鸦转换为离散点，使其与SAM兼容，如图3所示。

具体而言，作者首先使用[35]中的Zhang-Suen算法提取涂鸦的骨架。然后，对其进行离散采样。具体而言，作者首先创建一个网格G，其中网格点均匀分布且距离为αW最小值（其中H和W分别表示输入图像的长度和宽度），α为超参数。之后，作者通过采样与涂鸦骨架和网格线相交的点来形成离散点集S^a。此时，作者得到SAM的提示：prt = {P, B, S^a}，其中P和B分别表示点和框的标签。

Response Filter

在COD中，伪装目标通常表现出极好的拟合效果。因此，SAM在有限的提示下容易找到过度的响应，如图2(b)所示。为了解决这个问题，作者设计了一个响应过滤器，以防止利用这些显然异常的响应，如图3所示。

具体来说，SAM给出的输入提示为：

其中提供第i个目标的伪装，表示相应的分割置信度。SAM 默认为使用置信度得分最高的那个mask。然后，作者设计了一个响应过滤器，通过计算 mask 的大小与图像大小的比例来确定是否出现过度的响应：

其中是一个指示函数。是第i个mask 的区域。和分别表示最大值和最小值。

Semantic Matcher

SAM 的语义知识匮乏，尤其是对伪装和整体细节的语义理解不足，导致其响应与物体不匹配，如图2(c) 所示。为了解决这个问题，作者设计了一个语义匹配器，通过语义熵来测量语义评分。接着，选择具有准确语义的 Mask ，如图3 所示：

具体而言，作者首先在 COD 数据上训练模型，得到 Mask ：

其中用于提供输入图像，和分别表示模型的编码器和解码器。尽管在进行分割细节方面可能无法与 SAM 的 Mask 相媲美，但在 COD 数据上的训练能为模型提供初步理解的伪装语义。

接下来，作者设计了一个使用计算语义熵的语义熵，以测量 Mask 的语义评分：

其中是像素索引。值越小，表示的语义评分越高。

作者选择乘积为和的最大值，该乘积平衡了分割细节和准确语义，形成中最佳的 Mask ：

Prompt-Adaptive Knowledge Distillation

作者采用知识蒸馏方法将大型视觉模型SAM中的知识迁移到较小的模型，从而降低数据成本和模型大小。然而，COD任务具有挑战性，且弱监督使知识蒸馏更加困难。具体来说，作者提出的框架将SAM中最佳 Mask 作为教师知识转换为学生知识。此外，作者利用不同提示的先验知识来增强蒸馏质量。

自知识蒸馏 。输入提示（涂鸦，方框和点）分别包含伪装目标的纹理、边界和区分区域。这些已被证实对于COD任务[15, 33]至关重要。因此，作者根据输入提示构建一个自适应提示 Mask ，用于知识蒸馏。在的关键蒸馏区域内标记为0（黑色区域）。具体而言，1）涂鸦标签，保留标记的前景物体，丢弃背景；2）点标签，中心为点标签的的内嵌圆形；3）盒状标签，用下划线“强调”的框表示，边宽和高度分别为盒状标签长度和宽度的四分之一。

然后，自适应提示知识蒸馏损失定义为：

其中是预测 Mask ，是像素索引。 =1+ =0) 和是示例函数。作为蒸馏损失中的系数，为提示引导区域分配权重，引导蒸馏过程关注学习关键蒸馏区域。

自知识蒸馏 。模型的学习特征表示可能不足以保证足够的鲁棒性，如图2 (d) 所示。受到自知识蒸馏（SKD）的启发，作者设计一个学生模型来增强表示学习。具体而言，对于图像，作者采用视觉变换（缩放，颜色晃动等），这些变换能够改变图像的外观，如图2（t）所示。

然后作者编码和解码增强图像，并将它们转换为两个预测图和，表示为：，。作者的目标是使两个预测图之间的距离最小：，其中是像素索引。当对图像应用变换（例如缩放，裁剪等）时，此变换应应用于以与对齐。作者遵循SKD的设计，即在一路径停止梯度更新，这将SKD损失函数定义为：

。

通过最小化上述损失，可以从教师模型学习到稳健的特征表示。

Network

编码器和解码器设计 编码器和解码器的设计可以灵活地替换为现有的模型。在本工作中，作者使用PVT[29]作为编码器，该编码器获得多尺度特征（，，，）。解码器包括四个3x3卷积层，将的通道维数减少到64，然后通过上采样将这些缩小到相同的大小。然后，通过 ConCat 进行组合，最后，使用一个3x3卷积层来获得最终的 Mask 。在作者这种方法中，所有编码器和解码器都指的是相同的模型。

训练细节 作者的训练过程包括两个主要步骤。在训练步骤1中，作者在语义匹配器中训练编码器和解码器，以获得最终的蒸馏源。在训练步骤2中，作者使用进行知识蒸馏，以重新训练编码器和解码器。更多细节请参阅S.M。

损失与[31, 34, 15]等其他弱监督方法相比，作者只有两个损失。最终损失包括定义为的和，如下所示：

4 Experiments

开始是实验部分的第4节。

Experimental Setup

数据集 作者的实验基于三个COD基准测试：CAMO[20]，COD10K[8]和NC4K[22]。为了评估作者的方法，作者首先在涂鸦标注的数据集S-COD[15]上训练作者的网络。然后，作者从COD10K（3040张图像）和CAMO（1000张图像）中各重新标注4040张图像，创建了带有标注的数据集（P-COD）和带有边界框标注的数据集（B-COD），用于训练，而剩余的图像则用于测试。

评估指标 作者采用四种评估指标：平均绝对误差（MAE），S-measure（S

涂鸦、边界框和点通吃，SAM-COD在伪装目标检测中的应用 ！

正文