当前的多模态大模型(MLLMs)取得了显著进展。然而,选择合适的 vision encoder 一直是一个经验性很强的过程,通常来讲研究人员需要对特定的 vision encoder 进行 pretrain+finetune,然后在多模态的 benchmark 上进行 performance 的测量。
这种方法开销很大,且未能深入探讨到底什么样的视觉特征会更好,因为 pretrain+finetuning 两个阶段耦合在了一起。因此,针对特定 MLLM 的最优视觉表示往往由经验性能决定,我们并不清楚 pretrain 阶段之后,视觉特征到底好不好。
本文提出了“多模态大模型中的视觉表示定律”,揭示了视觉特征的两个关键属性, 跨模态对齐
和 视觉表示的一致性
与 MLLM 性能之间的具有强相关,而且这两个 metric 可以不用 finetuning 整个 language model 就可以进行测量,从而快速的判断出用哪种 vision encoder 更为合理,减少了 99.7% 的计算成本。
论文题目:
Law of Vision Representation in MLLMs
https://arxiv.org/abs/2408.16357 视觉特征的质量为什么,从何影响 MLLM 的最终性能? 有了视觉特征的质量,如何预测 MLLM 的最终性能?
视觉特征的质量为什么,从何影响MLLM的最终性能?
这里主要有三点原因:
视觉表示各有千秋,综合使用效果更好 :单独依赖 CLIP 之外的编码器(如 DINOv2 和 Stable Diffusion)通常 performance 很低。然而, 将这些编码器的特征与 CLIP 特征结合使用,如在 token 或 channel 维度上连接图像 embedding,可以显著提升性能 。
图像和文本特征空间之间的对齐影响数据效率 :作者指出视觉表示中的对齐对于提升模型性能和数据效率至关重要。没有预对齐的视觉表示,需要大量的数据预训练才能在语言模型中实现跨模态对齐。
视觉对应: 比如语义信息的对应,或者关键点的匹配能力可以显著提高图像检测、视觉创建和 MLLMs 等任务的性能,这对于姿态估计和 SLAM 任务等低级视觉任务尤为重要。
作者主要设计了两个 metric 来评估视觉特征的质量,也就是所谓的 AC 策略,即 MLLM 的性能(记作 Z)可以通过视觉表示的跨模态对齐(A)和对应性(C)来估计,假设视觉表示是唯一的独立变量,其他组件(如语言模型和对齐模块)保持不变。这个关系可以表示为:
其中,f 是 A 和 C 的二次多项式变换上的线性函数。 为了量化跨模态对齐 ,作者比较了相同概念的图像和文本嵌入。然而,找到相同概念是困难的,因为它需要对齐。为了解决这个问题,使用 CLIP 视觉嵌入作为参考,计算 CLIP 嵌入与目标视觉表示嵌入的向量对之间的最大余弦相似度 SC:
其中,n 是图像样本的总数, 是第 i 个图像的第 v 个嵌入向量,由视觉特征 F 通过 MLP 得到。 为了计算对应分数 ,首先从配对图像中提取特征(一堆具有相似语义或者组成的图像),得到特定源和目标对的 和 。给定真实关键点 ,使用特征得到预测关键点 。对应分数是使用以下公式计算的正确关键点百分比(PCK):
其中,T 是与关键点距离相关的阈值,当两个关键点较为接近,就说明图像特征预测的关键点可以较好的匹配。
最后,AC 分数是 A 和 C 分数的二次多项式变换:
有了视觉特征的质量,如何预测MLLM的最终性能?
问题表述 。通常情况下,为了确定 k 种视觉表示中的最优表示,原本需要对 LLM进行 k 次微调。但此时我们已经有了每个特征的 A socre 与 C score,可以初步判断 pretrain 视觉特征的质量,接下来应该如何做?
最简单的策略是 拟合所有的 vision encoder 的 A,C score与最终 perforamnce 的曲线,得到二项式参数,从中选择最优的 ,但是这种方法也需要拟合 k 次,因此作者提出了一种 sampling 的策略。
抽样策略 。采样 k' 次而不是完成的 k 次,其中 。为了避免抽样点在 A 和 C 分数上过于接近,采用基于坐标的抽样策略。将 k 种视觉表示的标准化 A 和 C 分数对在 2D 图上绘制为坐标(A, C),为了确保多样化抽样,将图划分为若干区域。 在每次迭代 j 中,总抽样点数尚未满足 k′,将图划分为 4j 个相等区域。然后移除空区域和包含先前抽样点的区域,从剩余区域中随机选择下一个数据点。 根据 k′ 个数据点,记为 ,作为线性回归模型的输入:
其中, 是模型参数向量,ϵ 是误差项向量, 表示在期望基准上的下游性能。我们就可以得到目前的 vision encoder 在下游任务上可能的效果。 采样效率 :该采样效率在 13 中视觉特征的搜索空间中,总是能在前三个预测中识别出最佳视觉表示(Recall@3)。随机选择一个子集进行训练需要 13 个中的 12 次微调才能达到超过 90% 的 Recall@3。AC策略平均只需要 3.88 次完整训练运行即可达到 89.69% 的 Recall@3。
本文研究的视觉表示包括单个视觉编码器和多个视觉编码器的特征组合,如下表所示:
实验遵循 LLaVA 的训练过程、通用架构和数据集。训练过程分为两个阶段:第一阶段使用 LLaVA 1.5 数据集(558K 样本)训练 2 层 GeLU-MLP 连接器;第二阶段在扩展的 LLaVA 1.5 数据集(665K 样本)上训练连接器和语言模型。
每次训练中,除了视觉表示变化之外,其他因素保持不变。本文使用的 MLLM 基准包括 4 个基于视觉的基准(MM-Bench、MME、OKVQA、SEED-Bench)和 4 个基于 OCR 的基准(MMMU、TextVQA、VizWiz、ScienceQA)。
为了计算跨模态对齐分数,作者在所有视觉表示上进行第一阶段训练以获取 MLP,这个过程只涉及 0.298% 的可训练参数。每个基准的对齐分数平均取自 100 张随机抽样的图像。对于对应分数,使用 SPair-71k 数据集,所有表示的对应分数一致。 通过拟合线性回归模型, 分析决定系数(R²)以展示 AC 分数与 MLLM 性能的强相关性 。结果显示,无论是否进行多项式变换,使用 AC 分数的 R² 值显著高于其他设置。特别是,二次多项式变换的 A 和 C 分数与模型性能的相关性最高,这表明 A 和 C 分数之间存在内在权衡:具有高跨模态对齐的视觉表示通常表现出较低的对应性,反之亦然。
由于 AC 分数与 MLLM 基准性能高度相关,为了从视觉方面改进 MLLM,识别具有高 AC 分数的视觉表示并将其添加到搜索空间中至关重要。提高分辨率和组合特征是实现这一目标的两种策略。
然而,A 分数计算中可能包含无意的对应效应,如果 CLIP 和目标编码器的分辨率不同, A 分数计算可能不准确 。最佳实践是始终使用相同输入分辨率的 CLIP 和目标编码器。
此外, 使用 SPair-71k 数据集计算 C 分数无法准确捕捉包含文本的图像的对应性 。理想情况下,每个基准应有自己的关键点标记图像用于对应性评估。未来的研究可以开发 OCR 特定的对应数据集,以更好地评估 MLLMs。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: [email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」