专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
中国舞台美术学会  ·  首期舞台化妆造型高级人才研修班即将在中国国家 ... ·  2 天前  
中国舞台美术学会  ·  关注丨北京市文化和旅游工作会:聚焦高质量发展 ... ·  2 天前  
中国舞台美术学会  ·  观察丨经典,在首都舞台焕新重塑 ·  昨天  
中国舞台美术学会  ·  中国舞台美术学会关于严肃会风会纪的通知 ·  昨天  
奔腾融媒 都市全接触  ·  今起,呼和浩特开通临时公交专线! ·  2 天前  
51好读  ›  专栏  ›  学姐带你玩AI

CLIP还能再战 !结合Mamba超越传统,仅用1/5参数就达到天花板性能

学姐带你玩AI  · 公众号  ·  · 2024-12-31 18:22

正文

CLIP是由OpenAI开发的多模态预训练模型,具有非常强的泛化能力、高效性和灵活性。

目前关于CLIP的研究主要是将它与其他技术结合, 以实现更复杂的多模态任务。这种策略不仅可以很大程度上提升模型的性能,还给我们提供了更大的创新空间,很多研究也已经在多个领域获得了显著的成效。

比如首次提出的CLIP-Mamba模型,仅用1/5参数就达到ViT天花板性能;还有北大最新的CLIP-GS,在实时渲染速度和分割精度方面实现SOTA效果。

为帮助同学们了解最新动态,这次我整理了 12个 最新的CLIP结合创新方案 ,基本都有开源代码,包含了热门的Mamba、Transformer等主题,希望能给各位提供新的思路。

扫码 添加小享, 回复“ CLIP创新

免费获取 全部 文+代码合集

结合Mamba

CLIP-Mamba: CLIP Pretrained Mamba Models withOOD and Hessian Evaluation

方法: 论文介绍了第一次尝试使用对比性语言-图像预训练(CLIP)来训练可转移的Mamba模型,通过对26个零样本分类数据集和16个超出分布(OOD)数据集进行全面评估,发现拥有6700万参数的Mamba模型在零样本分类任务上与拥有3.07亿参数的Vision Transformer(ViT)模型相当,突显了Mamba模型的参数效率。

创新点:

  • 提出了CLIP-Mamba模型:CLIP-Mamba模型以更少的参数超越了大型ViT模型,展现了其高效能与卓越效果。
  • OOD泛化能力验证:在多样化的OOD数据集上,Mamba模型表现优于ViT,展现出强大的泛化能力和鲁棒性。
  • 训练景观分析:Mamba模型的训练景观呈现“非凸”且尖锐,表明其优化过程更具挑战性,也为性能优化提供了方向。

结合3DGS

CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding

方法: 论文提出了一个名为CLIP-GS的新方法,该方法将CLIP模型的语义理解能力整合到3D高斯溅射中,以实现对3D场景的高效和实时的语义理解。具体来说,CLIP-GS利用CLIP模型来提供无需标注的语义数据,以此来增强3D场景的语义理解,而无需依赖于手动标注的多视角语义标签。

创新点:

  • 引入了基于高斯光斑的CLIP-GS方法,用于实现实时和精确的三维场景语义理解。CLIP-GS利用语义属性紧凑性(SAC)将紧凑的语义信息附加到三维高斯中,以高效表示三维语义,从而保证了高效的渲染。
  • 首次将基于高斯光斑的三维重建应用于单目或RGB-D相机的增量三维重建。
  • 引入了语义属性紧凑性来解决以往方法的限制。该方法通过在高斯中高效表示场景语义,保证了异常快速的训练和推理速度。

扫码 添加小享, 回复“ CLIP创新

免费获取 全部 文+代码合集

结合Transformer

Frozen CLIP Transformer Is an Efficient Point Cloud Encoder

方法: 本文提出了一种使用冻结的CLIP Transformer构建点云理解模型的高效方法,该方法通过使用点云分词器将输入点云转换为序列标记,并将这些标记和可学习的任务标记输入到冻结的CLIP Transformer中,从而生成具有鲁棒性的3D表示。

创新点:

  • EPCL方法利用冻结(即不进行训练调整)的CLIP变换器作为点云的编码器。
  • 通过设计点云分词器,将点云特征与图像特征映射到同一嵌入空间,实现了不同模态之间的语义对齐,而无需成对的2D-3D数据。
  • 提出了一种高效的模块,即点云分词器,用于将点云和图像信息映射到同一嵌入空间。
  • 引入了任务标记,这是一个可学习的全连接层,用于嵌入特定于任务的偏差,以进一步提升模型对点云任务的适应性。







请到「今天看啥」查看全文