专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
不正常人类研究中心  ·  社畜的临终幻想 ·  10 小时前  
51好读  ›  专栏  ›  极市平台

CLIP-Mamba:首次提出用CLIP训练Mamba,仅用1/5参数就达到ViT天花板性能

极市平台  · 公众号  ·  · 2024-05-14 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨 AI引擎
来源丨AI视界引擎
编辑丨极市平台

极市导读

作者训练了不同规模的Mamba模型,并在26个零样本分类数据集和16个分布外(OOD)数据集上对这些模型进行了全面评估。作者的研究发现,拥有6700万参数的Mamba模型与拥有3.07亿参数的视觉 Transformer (ViT)模型在零样本分类任务上表现相当,突显了Mamba模型的参数效率。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

这份技术报告介绍了首次尝试利用对比语言-图像预训练(CLIP)来训练一个可迁移的Mamba模型。作者已经训练了不同规模的Mamba模型,并在26个零样本分类数据集和16个分布外(OOD)数据集上对这些模型进行了全面评估。作者的研究发现,拥有6700万参数的Mamba模型与拥有3.07亿参数的视觉 Transformer (ViT)模型在零样本分类任务上表现相当,突显了Mamba模型的参数效率。在OOD泛化测试中,基于Mamba的模型在OOD图像对比度或经过高通滤波的条件下表现出色。然而,Hessian分析表明,与基于ViT的模型相比,Mamba模型具有更尖锐、更非凸的景观,这使得它们更难以训练。
源代码: https://github.com/raytrun/mamba-clip

1 Introduction

基础模型,即在对大量数据进行预训练并在特定下游任务中进行适配的模型,已成为机器学习领域内一个充满活力的研究方向。在过去的六年里,Transformers已经成为支撑基础模型的主要架构,跨越了众多领域。Transformer架构的核心是自注意力机制,它复杂地促进了每个标记对之间的信息流动。这一机制因其对情境学习的不可或缺的作用、增强推理能力以及提升分布外(OOD)鲁棒性而受到高度评价。然而,自注意力机制的二次计算需求带来了重大的可扩展性挑战,特别是在窗口长度方面,因此成为实际应用中的一个重大障碍。作为回应,大量研究致力于设计能在亚二次时间内运行的有效的自注意力机制。尽管这些进展,但这些创新往往在性能上不如二次时间复杂度的Transformer。

选择性状态空间模型(Mamba)最近作为下一代基础模型 Backbone 的有力候选者出现,因为它们在享受线性时间复杂度的同时,比Transformers展现出更好的扩展规律。在过去的几个月里,Mamba模型在包括但不限于自然语言处理,图像处理,视频分析,时间序列预测,图论应用,点云处理,推荐系统,强化学习,以及医疗诊断在内的一系列关键领域中展示了卓越的成功。聚焦于计算机视觉,大量基于Mamba的模型出现,并在图像分类,目标检测,分割,图像恢复,以及3D重建等方面设定了新的最先进基准。尽管这些成就,当前的基于Mamba的模型是在一组固定的预定目标类别上进行训练的,缺乏零样本泛化能力。要弥补这一差距,需要整合大规模语言-图像预训练,这是基于Mamba的基础模型发展的一个不可或缺的组成部分。

这份技术报告首次尝试使用对比语言-图像预训练来训练Mamba模型。具体来说,本技术报告的结论总结如下:

  • CLIP-Mamba模型:作者发布了开源的CLIP-Mamba模型。具有5000万参数的Mamba模型超越了8400万参数的ViT模型的表现,而具有6700万参数的Mamba模型在26个零样本分类数据集上的表现等同于3.07亿参数的ViT模型。这些结果强调了Mamba模型的效率和有效性。
  • OOD泛化评估:作者在16个OOD数据集上的广泛评估表明,Mamba模型一致性地优于ViT模型。基于Mamba的模型在OOD图像对比度条件下或受到高通滤波处理时显示出异常的鲁棒性。
  • 景观评估:通过可视化Hessian,作者深入探讨了Mamba模型的训练景观。作者的发现表明,与ViT模型相比,Mamba模型展现出更加“非凸”和更尖锐的景观,这表明在优化方面存在更大的挑战。

2 Experiments and Analysis

在本节中,作者针对CLIP Mamba模型与CLIP Vision Transformer模型在零样本分类、OOD泛化和Hessian谱方面进行了全面的实验和分析。

Zero-shot Classification

在作者的研究中,作者训练了一系列模型,包括VMamba-30M、VMamba-50M、VMamba-89M,以及Simba-L 66.6M,使用了标准的CLIP预训练流程。这些模型的零样本性能在多种数据集上进行系统评估,并在表1中进行了总结。

值得注意的是,在大多数考察的数据集中,50M参数的Mamba-S模型的表现优于84M参数的ViT-B模型。在考虑性能巅峰时,结果各占一半;66.6M参数的Simba-L在一半的数据集中领先,而307M参数的ViT-L在剩余的一半中占据主导。

OOD Robustness and Comparison with Humans

基于Geirhos等人(2021年)提出的方法论,作者深入进行了涉及VMamba、Simba、ViTs以及人类在16个分布外(OOD)数据集上的性能比较。这一全面比较的结果在图1中进行了视觉呈现,提供了整体性能的概览,并在图2中提供了性能指标的详细分解。

从图1中呈现的总体数据来看,明显可以看出基于Mamba的模型在OOD性能上优于其对应模型,并显示出明显的形状偏差。这种形状偏差,即偏好于识别物体的形状而非纹理,更接近于人类视觉中固有的图像识别能力。与人类视觉处理的这种一致性,强调了基于Mamba的模型在需要细致视觉理解的应用中的潜力。

图2提供的更细粒度的洞察进一步证实了基于Mamba的模型在性能上优于基于ViT架构的模型。值得注意的是,在对比度增强或应用高通滤波器的条件下——在这些场景中,基于Mamba的模型不仅性能超过基于ViT的模型,甚至超越了人类的能力。一方面,ViTs和人类视觉对视觉数据中的低频成分显示出明显的偏好,正如Park和Kim(2022年)所强调的。这种倾向使得它们在低频成分被最小化或不存在的环境中效果不佳,例如在存在高通滤波器的情况下。另一方面,状态空间模型或Mamba的隐藏层是正交多项式的系数,因此在频率偏差方面不如ViT明显。

Hessians and Training Landscape

Hessian谱反映了模型的训练景观,一个理想的损失景观由其平坦度和凸性来表征。Hessian特征值作为这些特性的指标,其中特征值的幅度反映了景观的尖锐程度,负Hessian特征值的存在表示非凸性。作者遵循Park & Kim(2022)进行这项分析。作者使用了3000个样本,批处理大小为15。对于每个批次,作者计算前5个Hessian特征值谱,结果如图3所示。可视化显示,VLambda模型相比于ViT模型显示出更多的负特征值,表明其具有更明显的非凸性。此外,Mamba模型显示具有较大幅值的特征值数量更多,这表明它们的损失景观更为尖锐。

作者遵循 Park & Kim(2022)进行这项分析。

作者使用了3000个样本,批处理大小为15。对于每个批次,作者计算前5个Hessian特征值谱,结果如图3所示。可视化显示,VLambda模型相比于ViT模型显示出更多的负特征值,表明其具有更明显的非凸性。此外,Mamba模型显示具有较大幅值的特征值数量更多,这表明它们的损失景观更为尖锐。

参考

[1].CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation.

公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货







请到「今天看啥」查看全文