专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

多模态CLIP魔改版太强了！直接上岸CVPR！

学姐带你玩AI · 公众号 · · 2025-02-16 18:02

正文

CLIP，一个由OpenAI开发的多模态预训练模型。近年来由于多模态的爆火，CLIP的研究热度也呈爆发式增长，CVPR 2024上只要是多模态方向的，几乎都在用CLIP。

CLIP被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域，这源于它卓越的视觉表征能力、良好的可扩展性，以及强大的跨模态连接文本与图像的能力。但显然，CLIP仍然有许多问题等待改进，比如处理细节和复杂关系的能力有限、对计算量的要求太高...

目前，我们对 CLIP的改进创新 基本围绕这些问题展开，且已经出现了不少值得学习的研究成果，比如ECCV 2024上的 AdaCLIP的框架，在零样本异常检测中实现了显著的性能提升！还有NeurIPS 2024的TripletCLIP、AAAI 2024的Structure-CLIP...

可见 各大顶会上有关CLIP的改进研究真的是相当火热。 本文整理了 11个 CLIP最新改进方案 ，全部都是顶会paper，基本都有代码，有论文需求的同学可以直接拿来作参考。

扫码添加小享， 回复“ CLIP改进 ”

免费获取 全部论文+开源代码

方法： 论文提出了一个名为AdaCLIP的框架，它是对预训练的视觉-语言模型（VLM）CLIP的改进，用于零样本异常检测任务。AdaCLIP通过引入可学习的提示（prompts）来增强CLIP模型，使其能够适应不同的异常检测场景，特别是在没有目标类别训练样本的情况下。

创新点：

方法： 论文提出了一种基于噪声的方法PiNI，旨在增强CLIP模型在下游任务中视觉和语言模态之间的对齐。PiNI通过重新定义CLIP的推理过程，引入正激励噪声以改善视觉和语言模态的对齐，在多个数据集上验证了其在少样本分类任务中的有效性，为CLIP的概率优化提供了新范式。

创新点：

扫码添加小享， 回复“ CLIP改进 ”

免费获取 全部论文+开源代码

方法： 论文提出了一个名为TripletCLIP的新方法，利用上下文学习生成困难的负文本描述，并使用文本到图像生成器合成相应的负图像，通过交替使用这些困难的负图像和文本对进行对比预训练，从而提升模型在视觉和语言模态上对齐的效果。

创新点：