专栏名称: CVer
一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。
目录
相关文章推荐
51好读  ›  专栏  ›  CVer

ECCV 2024 | ClearCLIP:删除两个组件,可以提升语义分割性能!

CVer  · 公众号  ·  · 2024-10-22 13:05

正文

点击下方 卡片 ,关注“ CVer ”公众号

AI/CV重磅干货,第一时间送达

点击进入—> 【Mamba和图像分割】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球 可以获得最新顶会/顶刊上的论文idea CV从入门到精通资料,及最前沿应用 !发论文/搞科研/涨薪,强烈推荐!

转载自:晓飞的算法工程笔记

论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

  • 论文地址:https://arxiv.org/abs/2407.12442
  • 论文代码:https://github.com/mc-lan/ClearCLIP

创新点


  • 发现两个关键因素在将 CLIP 适配密集视觉-语言推理中起着至关重要的作用:残差连接影响的减少以及通过自注意力机制的空间信息重组。
  • 提出 ClearCLIP ,在 CLIP 的最后一层中进行了三项简单的修改:去除残差连接、最后一个注意力层中采用自注意力机制以及舍弃前馈网络( FFN )。这些修改旨在增强注意力输出,从而为开放词汇语义分割任务生成更清晰的表示。

内容概述


尽管大规模预训练的视觉-语言模型( VLMs ),特别是 CLIP 在各种开放词汇任务中取得了成功,但它们在语义分割中的应用仍然面临挑战,常常产生噪声分割图,存在误分割区域。

论文仔细重新审视了 CLIP 的架构,并确定残差连接是降低分割质量的主要噪声源。通过对不同预训练模型中残差连接与注意力输出的统计特性进行比较分析,发现 CLIP 的图像-文本对比训练范式强调全局特征,而牺牲了局部可区分性,从而导致噪声分割结果。

为此,论文提出了 ClearCLIP ,这是一种新颖的方法,旨在分解 CLIP 的表示,以增强开放词汇语义分割。对最终层进行了三项简单的修改:去除残差连接、最后一个自注意力层中采用自注意力机制以及丢弃前馈网络。 ClearCLIP 可以一致地产生更清晰、更准确的分割图,并在多个基准测试中超过现有方法。

ClearCLIP


基于 ViT CLIP 模型由一系列残差注意力块组成。

舍弃残差连接

通过比较 COCOStuff 数据集中 CLIP-B / 16 CLIP-L / 14 模型最后一个模块的残差连接 与不同注意力输出 的范数来开始分析,可以很容易地观察到这两个子图的共性和差异:

  1. 共性在于 mIoU 曲线和 的范数曲线表现出一定程度的正相关。
  2. 差异包括: 1 CLIP-B / 16 的范数远小于 CLIP-L / 14 的范数; 2 CLIP-B / 16 中的注意力修改在 q-k 基线之上表现出一致的改善,而 CLIP-L / 14 中的情况则没有。

因此,当 的影响(或范数)最小化时,注意力修改才是有效的。换句话说, 显著削弱了 CLIP 在密集推断任务上的表现。

为了验证这一假设,基于 CLIP-B / 16 使用 进行开放词汇语义分割实验。 COCOStuff 数据集上的实验结果如图 3 所示,发现 mIoU 接近于零,这表明残差连接可能对图像分割没有帮助。相反,仅使用 mIoU 显著高于 。图 3 中的可视化结果表明, CLIP 的噪声分割图可以分解为一个模糊的 图和一个更清晰的 图。根据这些实验结果,可以初步得出结论:分割图中的噪声主要来源于残差连接。

为了进一步证明 如何影响 CLIP 的性能,引入了一个缩放因子 ,使得 ,该因子控制 相对于 的相对影响。实验表明表明更大的 显著提升了性能,这清楚地说明了 对性能的不利影响。

最后,论文建议直接舍弃残差连接以在密集的视觉-语言推理任务中实现最佳性能。

舍弃前馈网络( FFN

Transformer 架构中的前馈网络( FFN )在建模数据中的关系和模式方面起着至关重要的作用,但最近的研究显示, FFN 在推理过程中对图像表示的影响微乎其微。最后一个注意力模块中的 FFN 特征与最终分类特征的余弦角度明显更大,因此建议在密集预测任务中舍弃 FFN

在应用于基础 CLIP 模型时,论文发现移除 FFN 对开放词汇语义分割任务的影响较小。但当与去除残差连接相结合时,舍弃 FFN 会导致结果的改善,特别是在模型规模较大的情况下。这种改进的原理在于,去除残差连接显著改变了 FFN 的输入,从而影响其输出。因此,去除 FFN 的输出可能会减轻其对性能的负面影响。

自注意力机制

基于上述分析,使用最后一个自注意力层的注意力输出用于视觉-语言推理。







请到「今天看啥」查看全文