专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

节省99.7%训练成本！斯坦福、伯克利新作揭示多模态大模型的视觉表示定律

PaperWeekly · 公众号 · 科研 · 2024-09-22 23:58

正文

当前的多模态大模型（MLLMs）取得了显著进展。然而，选择合适的 vision encoder 一直是一个经验性很强的过程，通常来讲研究人员需要对特定的 vision encoder 进行 pretrain+finetune，然后在多模态的 benchmark 上进行 performance 的测量。

这种方法开销很大，且未能深入探讨到底什么样的视觉特征会更好，因为 pretrain+finetuning 两个阶段耦合在了一起。因此，针对特定 MLLM 的最优视觉表示往往由经验性能决定，我们并不清楚 pretrain 阶段之后，视觉特征到底好不好。

本文提出了“多模态大模型中的视觉表示定律”，揭示了视觉特征的两个关键属性，跨模态对齐和视觉表示的一致性与 MLLM 性能之间的具有强相关，而且这两个 metric 可以不用 finetuning 整个 language model 就可以进行测量，从而快速的判断出用哪种 vision encoder 更为合理，减少了 99.7% 的计算成本。

论文题目：

Law of Vision Representation in MLLMs

论文链接：

https://arxiv.org/abs/2408.16357

那么我们来一次解决下述核心问题：

视觉特征的质量为什么，从何影响 MLLM 的最终性能？
如何评估视觉特征的质量？
有了视觉特征的质量，如何预测 MLLM 的最终性能？

视觉特征的质量为什么，从何影响MLLM的最终性能？

这里主要有三点原因：

视觉表示各有千秋，综合使用效果更好：单独依赖 CLIP 之外的编码器（如 DINOv2 和 Stable Diffusion）通常 performance 很低。然而，将这些编码器的特征与 CLIP 特征结合使用，如在 token 或 channel 维度上连接图像 embedding，可以显著提升性能。

图像和文本特征空间之间的对齐影响数据效率：作者指出视觉表示中的对齐对于提升模型性能和数据效率至关重要。没有预对齐的视觉表示，需要大量的数据预训练才能在语言模型中实现跨模态对齐。

视觉对应：比如语义信息的对应，或者关键点的匹配能力可以显著提高图像检测、视觉创建和 MLLMs 等任务的性能，这对于姿态估计和 SLAM 任务等低级视觉任务尤为重要。

如何评估视觉特征的质量？

作者主要设计了两个 metric 来评估视觉特征的质量，也就是所谓的 AC 策略，即 MLLM 的性能（记作 Z）可以通过视觉表示的跨模态对齐（A）和对应性（C）来估计，假设视觉表示是唯一的独立变量，其他组件（如语言模型和对齐模块）保持不变。这个关系可以表示为：

其中，f 是 A 和 C 的二次多项式变换上的线性函数。

实现细节

为了量化跨模态对齐，作者比较了相同概念的图像和文本嵌入。然而，找到相同概念是困难的，因为它需要对齐。为了解决这个问题，使用 CLIP 视觉嵌入作为参考，计算 CLIP 嵌入与目标视觉表示嵌入的向量对之间的最大余弦相似度 SC：

其中，n 是图像样本的总数，是第 i 个图像的第 v 个嵌入向量，由视觉特征 F 通过 MLP 得到。

为了计算对应分数，首先从配对图像中提取特征（一堆具有相似语义或者组成的图像），得到特定源和目标对的和。给定真实关键点，使用特征得到预测关键点。对应分数是使用以下公式计算的正确关键点百分比（PCK）：

其中，T 是与关键点距离相关的阈值，当两个关键点较为接近，就说明图像特征预测的关键点可以较好的匹配。

最后，AC 分数是 A 和 C 分数的二次多项式变换：

有了视觉特征的质量，如何预测MLLM的最终性能？

问题表述。通常情况下，为了确定 k 种视觉表示中的最优表示，原本需要对 LLM进行 k 次微调。但此时我们已经有了每个特征的 A socre 与 C score，可以初步判断 pretrain 视觉特征的质量，接下来应该如何做？

最简单的策略是拟合所有的 vision encoder 的 A，C score与最终 perforamnce 的曲线，得到二项式参数，从中选择最优的，但是这种方法也需要拟合 k 次，因此作者提出了一种 sampling 的策略。

抽样策略。采样 k' 次而不是完成的 k 次，其中。为了避免抽样点在 A 和 C 分数上过于接近，采用基于坐标的抽样策略。将 k 种视觉表示的标准化 A 和 C 分数对在 2D 图上绘制为坐标（A, C），为了确保多样化抽样，将图划分为若干区域。

在每次迭代 j 中，总抽样点数尚未满足 k′，将图划分为 4j 个相等区域。然后移除空区域和包含先前抽样点的区域，从剩余区域中随机选择下一个数据点。

根据 k′ 个数据点，记为，作为线性回归模型的输入：

其中，是模型参数向量，是误差项向量，表示在期望基准上的下游性能。我们就可以得到目前的 vision encoder 在下游任务上可能的效果。

采样效率：该采样效率在 13 中视觉特征的搜索空间中，总是能在前三个预测中识别出最佳视觉表示（Recall@3）。随机选择一个子集进行训练需要 13 个中的 12 次微调才能达到超过 90% 的 Recall@3。AC策略平均只需要 3.88 次完整训练运行即可达到 89.69% 的 Recall@3。

实验结果

实验设置

本文研究的视觉表示包括单个视觉编码器和多个视觉编码器的特征组合，如下表所示：

实验遵循 LLaVA 的训练过程、通用架构和数据集。训练过程分为两个阶段：第一阶段使用 LLaVA 1.5 数据集（558K 样本）训练 2 层 GeLU-MLP 连接器；第二阶段在扩展的 LLaVA 1.5 数据集（665K 样本）上训练连接器和语言模型。

每次训练中，除了视觉表示变化之外，其他因素保持不变。本文使用的 MLLM 基准包括 4 个基于视觉的基准（MM-Bench、MME、OKVQA、SEED-Bench）和 4 个基于 OCR 的基准（MMMU、TextVQA、VizWiz、ScienceQA）。

为了计算跨模态对齐分数，作者在所有视觉表示上进行第一阶段训练以获取 MLP，这个过程只涉及 0.298% 的可训练参数。每个基准的对齐分数平均取自 100 张随机抽样的图像。对于对应分数，使用 SPair-71k 数据集，所有表示的对应分数一致。

视觉表示定律

通过拟合线性回归模型，分析决定系数（R²）以展示 AC 分数与 MLLM 性能的强相关性。结果显示，无论是否进行多项式变换，使用 AC 分数的 R² 值显著高于其他设置。特别是，二次多项式变换的 A 和 C 分数与模型性能的相关性最高，这表明 A 和 C 分数之间存在内在权衡：具有高跨模态对齐的视觉表示通常表现出较低的对应性，反之亦然。