专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
贵州日报  ·  铜仁市人民政府最新人事任免 ·  3 天前  
百姓关注  ·  突发!飞机砸向公交车 ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

搜索图片有新招了!北大课题组提出图像检索新方法,输入草图or艺术or低分辨率 | ECCV 2024

我爱计算机视觉  · 公众号  ·  · 2024-09-04 23:44

正文




关注公众号,发现CV技术之美




李昊 投稿
转自量子位 | 公众号 QbitAI

从一大堆图片中精准找图 ,有新招了!论文已经中了ECCV 2024。

北京大学袁粒课题组,联合南洋理工大学实验室,清华自动化所提出了一种新的通用检索任务: 通用风格检索(Style-Diversified Retrieval)

一句话,这种检索任务要求模型面对风格多样的查询条件时,依然能精准找图。

传统图片检索主要靠 文本查询 ,查询方法单一不说,在使用其他检索方案的性能也一般。

而论文提出的 新图像检索方法 ,能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至包括组合查询(草图+文本、艺术+文本等)。

同时,模型在与其他检索基线之间的性能比较中达到 SOTA (最外围蓝色)

目前,论文已在arXiv公开,相关代码和数据集也已开源。

新图像检索方法

当前,图像检索的一大痛点是:

让检索模型具备理解多样化用户查询向量的能力

通俗点说就是,不管用户用哪种方式检索查询,最后都能命中用户想要的图像。

为了实现这一点,团队进行了 两项工作

  • 构建专有的检索数据集,包括多种类型的查询图片。

  • 提出即插即用的框架,使传统检索模型也能快速具有通用检索能力。

数据集构建

针对多种查询风格的图片文本检索任务,团队生成并构建了细粒度检索数据集DSR(Diverse-Style Retrieval Dataset)。

展开来说,数据集包括 10,000张自然图片 以及对应的四种检索风格(文本、草图、低分辨率、卡通艺术)。

其中的草图标注由FSCOCO数据集提供,卡通艺术图片和低分辨率图像由AnimateDiff生成。

同时,团队也采用 ImageNet-X 作为大尺寸粗粒度的多风格检索数据集。

ImageNet-X包括 100万 张带有各种风格标注的自然图片,相较于DSR,ImageNet-X数据集的图片更加简单,便于检索。

提出FreestyleRet框架

概括而言,FreestyleRet框架通过 将图片风格提取并注入 ,有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。

在构建FreestyleRet框架时,团队主要考虑到 两个问题

  • 如何有效地理解不同风格的查询向量的语义信息。

  • 如何有效利用现有的图文检索模型,实现优秀的扩展能力。

围绕这两个核心问题,团队设计 三个模块 来组成FreestyleRet框架:

(1)基于格拉姆矩阵的 风格提取模块 用于显式提取未知查询向量的风格表征;
(2) 风格空间构建模块 ,通过对风格表征聚类从而构建检索的风格空间,并将聚类中心作为风格的一致性表征;
(3) 风格启发的提示微调模块 ,通过对检索模型的Transformer layer进行风格初始化的插值,实现对现有检索模型的多风格查询能力扩展。

风格提取与风格空间的构建

格拉姆矩阵被验证为有效的图像风格提取方案,在本论文中团队采用基于格拉姆矩阵的风格提取模块对不同类型的查询向量进行风格提取。

团队采用 冻结的VGG轻量化网络 对查询向量进行表征编码,并选取浅层卷积表征作为风格提取的基特征,具体公式如下:

在得到查询向量对应的风格表征集合后,团队为查询向量集合 构建整体的风格空间

具体来说,采用K-Means聚类算法,迭代式的计算四种不同风格的查询向量集合对应的聚类中心,然后再对每个风格表征计算其所属的风格中心,并根据新的风格表征集合重新调整聚类中心的位置。

当聚类中心位置不再发生变化即为迭代完毕,公式如下:


在风格空间中,团队将不同查询向量风格对应的不同聚类中心作为风格空间的基向量。

而在推理过程中 面对未知风格的查询向量 ,风格空间将计算查询向量在基向量上的投影,通过对基向量投影与基向量的加权求和,风格空间实现对未知风格的量化。

高效风格注入的提示微调模块

在图像文本检索领域,基于Transformer结构的ALBEF, CLIP, BLIP等基础检索模型受到广泛的使用,很多下游工作采用了这些基础检索模型的 编码器模块

为了让FreestyleRet框架能够便捷且高效的适配这些基础检索模型,团队采用风格表征初始化的token对基础编码器的Transformer结构进行 提示微调

具体来说,在encoder layer的每层都插入使用量化风格表征初始化的可学习token,从而实现风格向编码器注入的流程。

实验性能展示

在定量实验角度,团队分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集的Recall@1, Recall@5性能。

实验证明,面对多种风格的查询向量时,FreestyleRet框架可以显著增强现有检索模型的泛化能力, 具有2-4%的提升







请到「今天看啥」查看全文