0. 论文信息
标题:Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval
作者:Morris Florek, David Tschirschwitz, Björn Barz, Volker Rodehorst
机构:Bauhaus-University Weimar、Carl Zeiss AG
原文链接:https://arxiv.org/abs/2409.13513
代码链接:https://github.com/morrisfl/UniFEx
1. 摘要
当前的图像检索系统经常面临领域特异性和泛化问题。这项研究旨在通过开发一个通用特征提取器的计算有效的训练框架来克服这些限制,该通用特征提取器提供跨各种领域的强语义图像表示。为此,我们策划了一个多领域的训练数据集,称为M4D-35k,它允许资源高效的培训。此外,我们对各种最先进的视觉语义基础模型和基于边缘的度量学习损失函数进行了广泛的评估和比较,以了解它们对于有效的通用特征提取的适用性。尽管计算资源有限,但我们在谷歌通用图像嵌入挑战中取得了接近最先进的结果,mMP@5为0.721。这使我们的方法在排行榜上排名第二,仅比最佳方法落后0.7个百分点。然而,我们的模型的总体参数减少了32%,可训练参数减少了289倍。与具有相似计算要求的方法相比,我们比先前的技术水平高出3.3个百分点。
2. 引言
图像捕获设备的普及推动了数字图像集合的增长以及对先进图像检索系统的需求。基于内容的图像检索(CBIR)能够在给定查询图像的情况下,从大型数据库中查找到语义上相似的图像。CBIR在多个领域有着广泛的应用:它能加快紧急情况下的医学图像搜索速度,协助电子商务购物者寻找相似产品,帮助定位和识别地标,并使执法部门能够出于安全目的识别个人。然而,当前方法通常受其领域特异性的限制,在处理领域外图像时遇到困难,且缺乏泛化能力。由于在一个统一的图像检索系统中使用多个针对特定领域的模型既昂贵又不便,因此人们期望有一种能够在多个领域间检索图像的统一模型。
认识到检索系统的通用能力依赖于图像表示,本研究深入探讨了通用特征提取领域。因此,本研究的主要目标是高效开发和训练一个通用图像编码器,该编码器能够提取专门针对实例级图像检索的判别性图像特征。
3. 效果展示
GUIEC测试集上的结果。通过绘制总模型参数数量的评估指标(mMP@5 ),将我们的方法与GUIEC排行榜进行比较。气泡的面积与可训练模型参数的数量成比例。
4. 主要贡献
本研究有两个主要贡献:(1)M4D-35k,一个精简的多领域训练集,支持资源高效的训练。与现有的多领域训练集不同,它支持监督学习,具有实例级类标签,且领域和类的分布更加均衡。(2)对各种视觉-语义基础模型和基于边距的度量学习损失进行了替代研究,以确定用于通用图像表示学习的最佳组合。这使得本研究在谷歌通用图像嵌入挑战(GUIEC)上取得了接近最优水平(SOTA)的结果,同时在训练过程中仅通过微调投影头(即线性探测)显著减少了计算资源的使用。
5. 方法
该模型的架构概念受到了GUIEC中观察到的最佳实践的启发,如图3所示。架构包括一个预训练的视觉-语义基础模型,该模型作为提取稳健、通用图像嵌入的主干网络。在主干嵌入之上构建了一个投影头,包括一个丢弃层(丢弃率为0.2)和一个线性层,用于将嵌入压缩到64维空间。在训练过程中,采用基于边距的度量学习损失来增强嵌入的判别能力。为了解决计算约束问题,训练过程仅限于嵌入模型的投影头(即线性探测),这要求我们冻结整个主干网络,并使我们的方法与GUIEC中领先的方法(微调整个模型)区别开来。在本研究的实验阶段,进行了一系列替代研究,以评估在通用特征学习的背景下,各种视觉-语义基础模型和基于边距的度量学习损失的有效性。
基础模型。基础模型主要是通过大规模自监督训练在各种数据上训练的模型,具有适应各种下游任务的灵活性。其中,图像-文本对比学习方法,如CLIP、OpenCLIP、CLIPA、EVA-CLIP、MetaCLIP或SigLIP,具有出色的零样本分类能力。此外,DINOv2是一种自监督范式,在线性探测场景中表现出了与CLIP模型相当的性能。Segment Anything Model(SAM)在零样本分割任务中取得了令人瞩目的成果。这些模型主要使用Vision Transformer(ViT)架构作为其视觉组件进行图像编码。本研究考虑了这些模型,因为它们跨越了不同的预训练范式,并且是推导稳健和通用图像嵌入的有力候选者。
6. 实验结果
7. 总结 & 未来工作
我们提出了一种资源高效的训练框架,用于构建通用图像嵌入模型,该模型能够提取具有判别性的嵌入特征,以实现实例级别的图像检索。我们在GUIEC测试集上取得了接近当前最优水平(SOTA)的结果,同时训练所用的计算资源显著减少。效率的提升得益于以下策略:精心策划的M4D-35k训练集、采用参数数量减少的轻量级模型架构(SoViT-400m)、应用稳健的预训练权重(SigLIP),以及对模型投影头的专属微调。取得接近SOTA性能的关键在于选择了视觉-语义基础模型。而基于最优边距的度量学习损失函数的选择,仅产生了轻微影响,这可能与训练集的精心选择有关。在特定嵌入模型和训练配置指导下,M4D-35k经过优化和调整,进一步提升的空间已相对有限。
推荐课程:
国内首个面向工业级实战的点云处理课程
。
后续研究可以聚焦于新型大规模多域UnED数据集。将所提出的图像嵌入模型与UnED基准进行测试对比将具有重要意义。此外,使用M4D-35k训练集来训练UnED基线模型,可以评估M4D-35k在不同场景下的适用性。另一种思路是,通过采用规模相当的嵌入模型和资源高效的训练方法,努力超越UnED基线。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云