专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
51好读  ›  专栏  ›  学姐带你玩AI

多模态CLIP魔改版太强了!直接上岸CVPR!

学姐带你玩AI  · 公众号  ·  · 2025-02-16 18:02

正文

CLIP,一个由OpenAI开发的多模态预训练模型。近年来由于多模态的爆火,CLIP的研究热度也呈爆发式增长,CVPR 2024上只要是多模态方向的,几乎都在用CLIP。

CLIP被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域,这源于它卓越的视觉表征能力、良好的可扩展性,以及强大的跨模态连接文本与图像的能力。但显然,CLIP仍然有许多问题等待改进,比如处理细节和复杂关系的能力有限、对计算量的要求太高...

目前,我们对 CLIP的改进创新 基本围绕这些问题展开,且已经出现了不少值得学习的研究成果,比如ECCV 2024上的 AdaCLIP的框架,在零样本异常检测中实现了显著的性能提升!还有NeurIPS 2024的TripletCLIP、AAAI 2024的Structure-CLIP...

可见 各大顶会上有关CLIP的改进研究真的是相当火热。 本文整理了 11个 CLIP最新改进方案 ,全部都是顶会paper,基本都有代码,有论文需求的同学可以直接拿来作参考。

扫码添加小享, 回复“ CLIP改进

免费获取 全部论文+开源代码

图片

[ECCV2024] AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection

方法: 论文提出了一个名为AdaCLIP的框架,它是对预训练的视觉-语言模型(VLM)CLIP的改进,用于零样本异常检测任务。AdaCLIP通过引入可学习的提示(prompts)来增强CLIP模型,使其能够适应不同的异常检测场景,特别是在没有目标类别训练样本的情况下。

创新点:

  • 提出了一种多模态混合提示学习方法,结合静态和动态提示,以适应视觉语言模型(VLMs)进行异常检测。
  • AdaCLIP通过在辅助标注的异常检测数据上进行训练,充分利用这些数据来适配预训练的CLIP模型进行ZSAD。
  • 提出了一种混合语义融合(HSF)模块,用于提取区域级异常信息,从而增强图像级别的异常检测性能。

[AAAI2025] Enhance Vision-Language Alignment with Noise

方法: 论文提出了一种基于噪声的方法PiNI,旨在增强CLIP模型在下游任务中视觉和语言模态之间的对齐。PiNI通过重新定义CLIP的推理过程,引入正激励噪声以改善视觉和语言模态的对齐,在多个数据集上验证了其在少样本分类任务中的有效性,为CLIP的概率优化提供了新范式。

创新点:

  • 提出了一种创新的基于噪声的微调方法,通过向视觉和文本编码器注入定制的有益噪声来微调CLIP模型。
  • 通过将提示视为变量,并应用变分推理和蒙特卡罗方法,将复杂的损失函数转换为可处理的噪声分布,优化模型性能。
  • 引入特定分布的噪声以减轻视觉数据集中的偏差,并提高语言模态的多样性和语义丰富性。

扫码添加小享, 回复“ CLIP改进

免费获取 全部论文+开源代码

图片

[NeurIPS2024] TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives

方法: 论文提出了一个名为TripletCLIP的新方法,利用上下文学习生成困难的负文本描述,并使用文本到图像生成器合成相应的负图像,通过交替使用这些困难的负图像和文本对进行对比预训练,从而提升模型在视觉和语言模态上对齐的效果。

创新点:

  • TripletCLIP通过采用三元对比学习策略引入了艰难的负样本图文对,增强了视觉-语言模型的组合推理能力。
  • TripletCLIP提出了一种新的艰难负样本生成方法,通过合成高质量的负样本图文对来增强模型的学习效果。
  • TripletCLIP在较小规模且精炼的数据集上取得了显著性能提升,不仅减少了计算成本,还提升了模型的效率。







请到「今天看啥」查看全文