CLIP,一个由OpenAI开发的多模态预训练模型。近年来由于多模态的爆火,CLIP的研究热度也呈爆发式增长,CVPR 2024上只要是多模态方向的,几乎都在用CLIP。
CLIP被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域,这源于它卓越的视觉表征能力、良好的可扩展性,以及强大的跨模态连接文本与图像的能力。但显然,CLIP仍然有许多问题等待改进,比如处理细节和复杂关系的能力有限、对计算量的要求太高...
目前,我们对
CLIP的改进创新
基本围绕这些问题展开,且已经出现了不少值得学习的研究成果,比如ECCV 2024上的 AdaCLIP的框架,在零样本异常检测中实现了显著的性能提升!还有NeurIPS 2024的TripletCLIP、AAAI 2024的Structure-CLIP...
可见
各大顶会上有关CLIP的改进研究真的是相当火热。
本文整理了
11个
CLIP最新改进方案
,全部都是顶会paper,基本都有代码,有论文需求的同学可以直接拿来作参考。
扫码添加小享,
回复“
CLIP改进
”
免费获取
全部论文+开源代码
[ECCV2024] AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection
方法:
论文提出了一个名为AdaCLIP的框架,它是对预训练的视觉-语言模型(VLM)CLIP的改进,用于零样本异常检测任务。AdaCLIP通过引入可学习的提示(prompts)来增强CLIP模型,使其能够适应不同的异常检测场景,特别是在没有目标类别训练样本的情况下。
创新点:
-
提出了一种多模态混合提示学习方法,结合静态和动态提示,以适应视觉语言模型(VLMs)进行异常检测。
-
AdaCLIP通过在辅助标注的异常检测数据上进行训练,充分利用这些数据来适配预训练的CLIP模型进行ZSAD。
-
提出了一种混合语义融合(HSF)模块,用于提取区域级异常信息,从而增强图像级别的异常检测性能。
[AAAI2025] Enhance Vision-Language Alignment with Noise
方法:
论文提出了一种基于噪声的方法PiNI,旨在增强CLIP模型在下游任务中视觉和语言模态之间的对齐。PiNI通过重新定义CLIP的推理过程,引入正激励噪声以改善视觉和语言模态的对齐,在多个数据集上验证了其在少样本分类任务中的有效性,为CLIP的概率优化提供了新范式。
创新点:
-
提出了一种创新的基于噪声的微调方法,通过向视觉和文本编码器注入定制的有益噪声来微调CLIP模型。
-
通过将提示视为变量,并应用变分推理和蒙特卡罗方法,将复杂的损失函数转换为可处理的噪声分布,优化模型性能。
-
引入特定分布的噪声以减轻视觉数据集中的偏差,并提高语言模态的多样性和语义丰富性。
扫码添加小享,
回复“
CLIP改进
”
免费获取
全部论文+开源代码
[NeurIPS2024] TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives
方法:
论文提出了一个名为TripletCLIP的新方法,利用上下文学习生成困难的负文本描述,并使用文本到图像生成器合成相应的负图像,通过交替使用这些困难的负图像和文本对进行对比预训练,从而提升模型在视觉和语言模态上对齐的效果。
创新点:
-
TripletCLIP通过采用三元对比学习策略引入了艰难的负样本图文对,增强了视觉-语言模型的组合推理能力。
-
TripletCLIP提出了一种新的艰难负样本生成方法,通过合成高质量的负样本图文对来增强模型的学习效果。
-
TripletCLIP在较小规模且精炼的数据集上取得了显著性能提升,不仅减少了计算成本,还提升了模型的效率。