【新智元导读】
近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。
在寒武纪大爆发中,视觉的出现对于早期动物至关重要。
捕食、避险、引导进化, 穿越时间,组成了多彩的世界。
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
对应到大模型的学习,虽然更大的规模可以增强多模态的能力,但视觉方面的研究和设计似乎没有跟上。
另一方面,过度依赖语言,则可能会成为多模态学习研究的瓶颈。
近日,LeCun和谢赛宁团队推出了Cambrian-1,一项采用以视觉为中心的方法设计多模态大语言模型(MLLM)的研究,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。
论文地址:https://arxiv.org/abs/2406.16860
开源代码:https://github.com/cambrian-mllm/cambrian
Cambrian-1使用MLLM指令微调作为各种视觉表示的评估协议。
整个框架围绕五个关键方面进行构建,同时也代表了作者对MLLM设计空间的重要见解:
传统协议与使用MLLM来评估视觉表征的比较:MLM采用视觉问答来解决各种现实世界感知任务。底部突出了Cambrian-1研究的五个关键支柱
Visual Representations:探索了各种视觉编码器及其组合。
Connector Design:本文设计了一种全新的动态的空间感知连接器,将多个模型的视觉特征与LLM集成在一起,同时减少了token的数量。
Instruction Tuning Data:研究人员从公共来源收集高质量的视觉指令微调数据,同时强调数据的平衡性。
Instruction Tuning Recipes:指令微调策略和实践。
Benchmarking:分析现有的MLLM基准测试,并引入了一个全新的以视觉为中心的基准测试CV-Bench。
作为这项研究的「副产物」,团队顺便训练出了一个目前性能最强的多模态模型。(红线是GPT-4V的成绩)
论文的一作Shengbang Tong是马毅教授以前在伯克利带的学生,目前在NYU读博士一年级。
马毅教授表示,这个模型是在过去几个月借谷歌的TPU训练的(等价于1000张A100的算力)。
「所以按照现在技术路线,从头到尾做一个SOTA多模态模型,基本上没有什么学术门槛。适合学AI的研究生热身。」
谢赛宁刚刚发文表示,「世界不需要另一个MLLM与GPT-4V竞争。Cambrian在以视觉为核心的探索是独一无二的,这也是为什么,我认为是时候将重心从扩展大模型转移到增强视觉表征了」。
他继续称,从以往的研究项目(MMVP、V*、VIRL)中,团队已经看到当前MLLM系统在视觉方面存在一些意料之外的缺陷。
虽然可以通过增加数据等方法暂时解决一些问题,但一个根本问题是——我们的视觉表征能力不足以支持模型的语言理解。
短期内,像Astra和GPT-4o这样的项目,确实令人印象深刻。
然而,要开发出一个能像人类一样感知真实世界、可靠地管理复杂任务,并做出相应行动的多模态助手,薄弱的视觉感知基础,可能会成为瓶颈。
语言先验很强大,但我们不应该用它们作为「拐杖」(引用Yann LeCun的原话)来弥补视觉表征的不足。
虽然基于CLIP模型(由语言强监督)已被证明很有效,但同时也存在一些问题,比如属性绑定。
然而,这些模型已经存在一段时间了,令人惊讶的是我们还没有看到任何重大突破。
另一方面,视觉自监督学习(SSL)模型虽令人印象深刻,但传统的评估方法(如线性探测或迁移到目标检测)不再有效。
CLIP/SigLIP模型很棒,但我们需要让方法多样化,继续探索新的可能性,而不是安于现状并宣称胜利。
这一情况让人想起2015-2016年,当时大家都认为ImageNet监督预训练天下无敌,其他视觉表征至少落后10-15%。
但是,研究人员们可没被吓倒,还是继续琢磨各种新方法和任务。
直到几年后,MoCo就展示了超越监督预训练模型的潜力。
这也是开发Cambrian项目的重要原因——为更多以视觉为中心的探索铺平道路。
之所以将模型称为Cambrian(寒武纪),因为就像寒武纪大爆发时生物发展出更好的视觉能力一样,研究团队相信改进的视觉能力不仅仅是看得更远,而是更深入地理解。
当我从业界转到学术界时,我并不确定,我们是否能完成这种需要全栈技能的大型项目。如果没有谷歌TPU研究云计划的支持,这个项目是不可能完成的(非常感谢Jeff Dean和Demis Hassabis对学术界的持续支持)。我认为Cambrian项目证明了学界和业界是可以互补的。
爱丁堡大学机器学习博士Yao Fu表示,作为一个想要了解视觉语言的LLM学者,我发现这篇论文有极高信息量,直接回答了我的困惑。
斯坦福大学博士后研究员Karl Pertsch畅想了这项研究的前景,他认为,视觉语言模型(VLMs)在视觉方面还有很大的改进空间,机器人学也可能是一个很好的测试平台!
「对于视觉语言动作(VLA)训练(即视觉语言模型+动作),我们发现现有的视觉编码器需要大量的微调,才能在机器人控制中表现良好,不过在这一领域的评估并不容易」。
在当前的MLLM研究中,视觉组件的设计选择通常没有得到充分探索,并且与视觉表征学习研究脱节。
这项研究的动机,正是源于当前多模态学习研究存在的两个潜在问题。
1. 过早地依赖语言可能会成为一种捷径,弥补学习有效视觉表征的缺陷
2. 现有的基准可能无法为现实场景提供足够的指导,毕竟,视觉基础对于稳健的多模态理解至关重要
如上文所言,这些担忧并非空穴来风,因为研究人员已经开始注意到,视觉基础早已成为在具有挑战性的现实世界中应用MLLM的瓶颈。
与此同时,用于视觉表征学习的传统评估基准(例如,在ImageNet-1K、COCO和ADE20K等数据集上进行线性探测和端到端微调)正在变得饱和,并不能反映现实世界分布中的多样化感知挑战。
相比之下,使用视觉问答(VQA)形式的语言提供了灵活且强大的评估基准。
而这项研究,就探索了全新的协议基准,从而更好地指导未来的视觉表征开发。
多模态领域的基准测试
为了有效评估视觉表征和MLLM,首先就需要选择能够准确评估它们多模态功能的基准。
谁来回答这个问题:LLM还是MLLM?确定基准是否真正需要视觉输入来解决,一直是视觉语言研究中的挑战。
为此而,研究人员比较了使用23个不同视觉主干训练的MLLM,分别禁用和启用它们的视觉能力并且通过随机猜测,计算了预期分数。
MLLM在启用和禁用视觉输入情况下,在不同基准测试中的表现
实验结果如上图所示,一些基准(比如MMMU和AI2D)不太依赖视觉输入,而在其他基准(如MMVP和MME)上则出现了显著的性能下降,表明后者能够对MLLM进行有效评估。
通过对各种基准上的MLLM性能的相关性分析和主成分分析,可以得到不同的聚类:蓝色的「通用」、黄色的「知识」、红色的「图表与OCR」和蓝色的「以视觉为中心」。
上图中的圆圈大小表示基准的不同规模,可以看到,以视觉为中心的基准非常稀缺。
于是,为了更好地评估真实环境中的视觉表征,研究人员通过将传统视觉基准转换为VQA格式,开发了一个以视觉为中心的MLLM基准——CV-Bench。
如下图和下表所示,
CV-Bench通过空间关系和物体计数评估2D理解,通过深度顺序和相对距离评估3D理解。
CV-Bench重新利用标准视觉任务进行多模态评估,包含约2600个VQA问题。
指令微调
MLLM一般使用MLP作为连接器连接预先训练的LLM和视觉骨干网。
不过最近的研究建议跳过连接器预训练以降低计算成本(同时不影响性能)。
于是作者用不同大小的适配器数据进行了实验,遵循LLaVA的方法,最初仅微调连接器,然后解冻LLM和连接器。
下图表明,预训练连接器可以提高性能,而使用更多适配器数据可以进一步增强性能,所以这里采用1.2M适配器数据标准化2阶段训练方法。
在微调期间可以选择冻结或解冻视觉主干网络。一些人认为,解冻视觉主干会显著降低性能。
本文的实验表明,在合理的视觉模型学习率下,除了知识基准的边际变化之外,解冻有利于提高所有基准测试的性能。
MLLM作为视觉模型评估器
使用2阶段指令微调、1.2M适配器数据、737K微调数据来比较各种视觉模型对下游MLLM性能的影响。
评估结果表明,语言监督模型在所有基准类别中都表现出强大的优势,尤其是在OCR和图表任务中。
另外,尽管DINOv2等SSL模型的数据集较小,但它们在以视觉为中心的基准测试中表现很不错。
基于语言监督和自监督视觉编码器的MLLM在各类基准测试中的性能排名,包括所有基准测试(All)、一般类(G)、知识类(K)、OCR和图表类(O)、以及以视觉为中心的基准测试(V)。
如上图所示,不同的视觉模型在MLLM性能的不同方面表现各有千秋。研究人员于是探索了组合多个视觉编码器以利用其独特的潜力。
鉴于不同的视觉编码器使用不同的架构和图像分辨率,这里将输出视觉标记插值到固定数字576。结果如下表所示,随着更多模型的添加,性能得到了一致的改进。
然而,这种策略有两个局限性:1)采用插值可能会导致信息丢失,特别是在具有高分辨率特征图的视觉编码器上,2)不应简单的串联每个模型,而是需要寻求一种更有效的策略,充分利用模型组合,使信息损失更少,灵活性更大。
在上面的结果中,DINOv2在一般VQA和知识VQA任务上,表现处于SSL模型和CLIP模型之间,而在以视觉为中心的基准测试中优于某些CLIP模型。
研究人员尝试解冻视觉主干并增加视觉微调数据量,以缩小这一差距。
如下图所示,通过解冻视觉主干,并使用5M数据进行微调,基于DINOv2的MLLM超过了使用CLIP模型的MLLM(0.7M训练数据)。
此外,在5M数据的实验设置下,DINOv2与CLIP模型之间的差距缩小了。
新的连接器设计
为了有效地聚合来自多个视觉编码器的特征并减少插值期间的信息丢失,这里使用一组可学习的潜在查询,它们通过交叉注意力层与多个视觉特征交互。
1.通过显式本地化查询中每个标记的聚合空间来编码空间归纳偏差。
2.在LLM层中多次执行视觉特征聚合,允许模型重复引用必要的视觉信息。
指令微调数据
研究人员收集了所有可用的指令微调数据,并通过增强多样性、平衡来源和改进混合来检查数据管理。
作者首先使用涉及视觉交互数据的现有多模态基准和数据集,例如视觉问答(VQA)和OCR数据。此外还收集了少量高质量的语言指令跟踪数据,以维持其语言能力。
作者还推出了一个数据引擎,帮助创建大规模、可靠、高质量的基于知识的多模态指令微调数据。
最终,这些数据构成了一个大型指令微调数据池——Cambrian-10M,包含大约9784k个数据点。
另外,研究人员还通过改进数据平衡和微调数据比率来进行数据管理。
为来自单个数据源的数据点数量设置阈值t,选择t=150k、250k、350k和450k,发现250k和350k之间的阈值对于Cambrian-10M效果最佳。
考虑到不同类型的视觉指令微调数据的不同能力,平衡这些数据类型的比例至关重要。
使用1350k的固定数据集大小进行试点实验,检查不同数据比例对下游性能的影响。从下图的结果可以发现: