专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
江南都市报  ·  亚冠:泽卡、克雷桑传射&卡扎破门,泰山3比1 ... ·  19 小时前  
江南都市报  ·  亚冠:泽卡、克雷桑传射&卡扎破门,泰山3比1 ... ·  19 小时前  
现代快报  ·  北京国安一球员家人称其国外集训因伤脑死亡 ·  20 小时前  
现代快报  ·  北京国安一球员家人称其国外集训因伤脑死亡 ·  20 小时前  
51好读  ›  专栏  ›  小白学视觉

【ECCV 2024】牛津大学提出用于开放词汇分割的扩散模型

小白学视觉  · 公众号  ·  · 2024-12-10 10:05

正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达

论文信息

题目:Diffusion Models for Open-Vocabulary Segmentation

用于开放词汇分割的扩散模型
作者:Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht

论文创新点

  1. 利用预训练扩散模型进行开放词汇分割 :作者提出了一种使用预训练扩散模型进行开放词汇分割任务的方法,无需额外数据、掩码监督或微调。这种方法通过生成式文本到图像扩散模型,为任意文本类别合成支持图像集,创建代表类别及其周围上下文的原型,从而实现高效的分割。
  2. 通过上下文先验处理背景 :作者提出了一种通过利用文本到图像生成模型中内置的上下文先验形成原型的原则性方法来处理背景。这种方法不仅编码了对象的视觉外观,还提供了上下文先验,直接用于背景分割,提高了分割质量和对象边界的精确性。
  3. 多原型和类别过滤技术 :作者引入了多原型和类别过滤技术,以进一步提高性能。多原型技术通过生成多个原型来适应类内变异性和外观多样性,而类别过滤技术则通过CLIP的多标签分类器来限制特征空间中的虚假相关性,确保分割结果的准确性。

背景

开放词汇分割是指能够分割图像中任何可以用自然语言命名的对象。近年来,大规模视觉-语言建模在开放词汇分割方面取得了显著进展,但代价是巨大的训练和标注成本不断增加。因此,作者提出一个问题:是否可以利用现有的基础模型来为特定类别集合合成高效的分割算法,使其在开放词汇设置下无需进一步收集数据、标注或进行训练即可应用。为此,作者提出了OVDiff,一种利用生成式文本到图像扩散模型进行无监督开放词汇分割的新方法。OVDiff为任意文本类别合成支持图像集,为每个类别创建一组代表该类别及其周围上下文(背景)的原型。该方法仅依赖于预训练组件,并直接输出合成的分割器,无需训练。作者的方法在多个基准测试中表现出色,在PASCAL VOC上的性能领先于现有工作超过5%。

关键词

开放词汇分割, 视觉-语言

III. 方法

作者提出了OVDiff,一种用于开放词汇分割的方法,即对任何用自然语言描述的类别进行语义分割。作者通过三个步骤实现这一目标:(1)利用文本到图像生成模型生成一组代表描述类别的图像,(2)使用这些图像从现成的预训练特征提取器中获取表示,(3)将这些表示与输入图像特征进行匹配以进行分割。

OVDiff:基于扩散的开放词汇分割

作者的目标是设计一个算法,给定一组用自然语言查询表示的新词汇类别 ,可以对任何图像进行分割。设 为待分割的图像。设 为现成的视觉特征提取器, 为文本编码器。假设图像和文本编码器是对齐的,可以通过简单地计算编码图像 和类别标签 的编码 之间的相似度函数(例如余弦相似度 ,其中 )来实现分割。为了有意义地比较不同模态,图像和文本特征必须位于共享的表示空间中,这通常通过联合训练 使用图像-文本或图像-标签对来学习。

作者提出了对该方法的两个修改。首先,作者观察到比较相同模态的表示比跨视觉和语言模态的表示更好。因此,作者用类别 维视觉表示 (称为原型)替换 。在这种情况下,可以使用相同的特征提取器来计算原型和目标图像的特征;因此,它们的比较变得直接,无需进一步训练。其次,作者提出为每个类别使用多个原型而不是单一的类别嵌入。这使得作者能够适应外观的类内变化,并且,如作者稍后解释的那样,它还允许作者利用上下文先验,从而帮助分割背景。

因此,作者的方法分为三个步骤:(1)基于词汇 采样一组支持图像,(2)计算一组原型 ,(3)将一组图像 与这些原型进行分割。作者观察到在实际应用中,使用相同词汇处理整个图像集合,因为以知情的方式为单个图像更改目标类别集合已经需要对其内容有所了解。因此,步骤(1)和(2)很少执行,其成本被大量分摊。接下来,作者详细介绍每个步骤。

支持集生成

为了构建一组原型,作者方法的第一步是采样一组代表每个类别 的支持图像。这可以通过利用预训练的文本条件生成模型来实现。与从精心策划的真实图像数据集采样相比,从生成模型采样与开放词汇分割的目标非常一致,因为它可以为任何用户指定的类别或描述构建原型,即使没有现成的手动标注集(例如 “带有巧克力糖衣的甜甜圈”)。

具体来说,对于每个查询 ,作者定义一个提示“一张好的 的图片”,并使用Stable Diffusion生成一批 个支持图像 ,高度为 ,宽度为

表示类别

简单地,原型 可以通过对类别 的所有图像的特征进行平均来构建。但这不太可能产生好的原型,因为采样图像中的所有像素并不都对应于 指定的类别。相反,作者提出如下提取类别原型。

类别原型作者的方法为每个类别生成两组原型,正原型和负原型。正原型从与 相关的图像区域中提取,而负原型代表“背景”区域。因此,为了获取原型,第一步是将采样图像分割成前景和背景。为了识别与 最相关的区域,作者利用了生成图像的布局主要依赖于扩散模型的交叉注意力图,即像素对描述它们的词的注意力更强。对于给定的词或描述(在作者的情况下为 ),可以通过对网络的所有层、头和去噪步骤的交叉注意力图求和来生成一组归属图

然而,对这些归属图进行阈值处理可能不是最优的,因为它们通常是粗糙或不完整的,有时只有部分对象获得高激活。为了提高分割质量,作者提出可选地利用无监督实例分割方法 。无监督分割器不具有词汇意识,可能会产生多个二值对象提案。作者将这些表示为 ,其中 索引支持图像, 索引对象掩码(包括背景掩码)。因此,作者构建了一个可提示的 分割器扩展,以选择前景和背景的适当提案:对于每张图像,作者从 中选择平均归属度最高的(最低的)掩码作为前景(背景):

原型聚合作者可以计算前景和背景区域的原型 )为

其中 表示与 空间维度匹配的 的调整大小版本, 计算每个掩码内的像素数。换句话说,原型通过现成的预训练特征提取器获得,并计算为每个掩码内的平均特征。

作者将这些称为实例原型,因为它们是根据每张图像单独计算的,并且支持集中的每张图像可以视为类别 的一个实例。

除了实例原型外,作者发现计算类别级原型 也很有帮助,通过按掩码大小加权平均实例原型得到

最后,作者提出通过对掩码特征进行 -Means聚类来增强类别和实例原型集,以获取部分级原型。作者分别对前景和背景区域进行空间聚类,并将每个聚类中心作为原型 ,其中 。其背后的直觉是实现部分级别的分割,支持更大的类内变异性,并支持可能不具有尺度不变性的更广泛的特征提取器。

作者考虑所有这些特征原型的并集:

对于 ,并将它们与单个类别关联。

作者注意到,此过程对每个 重复进行,因此在此处将 (和 )称为 ),即类别 的前景(背景)原型。

由于 )仅依赖于类别







请到「今天看啥」查看全文