CLIP是由OpenAI开发的多模态预训练模型,具有非常强的泛化能力、高效性和灵活性。
目前关于CLIP的研究主要是将它与其他技术结合,
以实现更复杂的多模态任务。这种策略不仅可以很大程度上提升模型的性能,还给我们提供了更大的创新空间,很多研究也已经在多个领域获得了显著的成效。
比如首次提出的CLIP-Mamba模型,仅用1/5参数就达到ViT天花板性能;还有北大最新的CLIP-GS,在实时渲染速度和分割精度方面实现SOTA效果。
为帮助同学们了解最新动态,这次我整理了
12个
最新的CLIP结合创新方案
,基本都有开源代码,包含了热门的Mamba、Transformer等主题,希望能给各位提供新的思路。
扫码
添加小享,
回复“
CLIP创新
”
免费获取
全部
论
文+代码合集
结合Mamba
CLIP-Mamba: CLIP Pretrained Mamba Models withOOD and Hessian Evaluation
方法:
论文介绍了第一次尝试使用对比性语言-图像预训练(CLIP)来训练可转移的Mamba模型,通过对26个零样本分类数据集和16个超出分布(OOD)数据集进行全面评估,发现拥有6700万参数的Mamba模型在零样本分类任务上与拥有3.07亿参数的Vision Transformer(ViT)模型相当,突显了Mamba模型的参数效率。
创新点:
-
提出了CLIP-Mamba模型:CLIP-Mamba模型以更少的参数超越了大型ViT模型,展现了其高效能与卓越效果。
-
OOD泛化能力验证:在多样化的OOD数据集上,Mamba模型表现优于ViT,展现出强大的泛化能力和鲁棒性。
-
训练景观分析:Mamba模型的训练景观呈现“非凸”且尖锐,表明其优化过程更具挑战性,也为性能优化提供了方向。
结合3DGS
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding
方法:
论文提出了一个名为CLIP-GS的新方法,该方法将CLIP模型的语义理解能力整合到3D高斯溅射中,以实现对3D场景的高效和实时的语义理解。具体来说,CLIP-GS利用CLIP模型来提供无需标注的语义数据,以此来增强3D场景的语义理解,而无需依赖于手动标注的多视角语义标签。
创新点:
-
引入了基于高斯光斑的CLIP-GS方法,用于实现实时和精确的三维场景语义理解。CLIP-GS利用语义属性紧凑性(SAC)将紧凑的语义信息附加到三维高斯中,以高效表示三维语义,从而保证了高效的渲染。
-
首次将基于高斯光斑的三维重建应用于单目或RGB-D相机的增量三维重建。
-
引入了语义属性紧凑性来解决以往方法的限制。该方法通过在高斯中高效表示场景语义,保证了异常快速的训练和推理速度。
扫码
添加小享,
回复“
CLIP创新
”
免费获取
全部
论
文+代码合集
结合Transformer
Frozen CLIP Transformer Is an Efficient Point Cloud Encoder
方法:
本文提出了一种使用冻结的CLIP Transformer构建点云理解模型的高效方法,该方法通过使用点云分词器将输入点云转换为序列标记,并将这些标记和可学习的任务标记输入到冻结的CLIP Transformer中,从而生成具有鲁棒性的3D表示。
创新点:
-
EPCL方法利用冻结(即不进行训练调整)的CLIP变换器作为点云的编码器。
-
通过设计点云分词器,将点云特征与图像特征映射到同一嵌入空间,实现了不同模态之间的语义对齐,而无需成对的2D-3D数据。
-
提出了一种高效的模块,即点云分词器,用于将点云和图像信息映射到同一嵌入空间。
-
引入了任务标记,这是一个可学习的全连接层,用于嵌入特定于任务的偏差,以进一步提升模型对点云任务的适应性。