近日,中国科学技术大学与上海人工智能实验室的研究者们提出了一种新的评估指标——模 态融合率 (Modality Integration Rate,MIR) ,旨在高效评估多模态大模型的预训练质量。该指标可以在快速准确地衡量预训练后多模态 LLM 的模态对齐程度。
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate https://arxiv.org/abs/2410.07167 https://github.com/shikiw/Modality-Integration-Rate
1、背景
预训练阶段在多模态大模型(MLLM)的训练中占据了核心地位,区别于传统的纯语言大模型(LLM)预训练,多模态预训练的关键在于实现不同模态之间的有效对齐。
近年来,MLLM 的发展经历了从使用数十万图像-文本对进行初步对齐,向利用丰富多样的模态数据进行深度集成的转变。然而,如何评估MLLM的预训练质量依然面临重大挑战。
目前最常用的方法是通过后续的有监督微调(SFT)来测试模型在下游任务中的表现,但这不仅计算成本高,还增加了复杂性。同时,借助于大型语言模型(LLM)的评估指标(如损失值 Loss、困惑度 PPL 和上下文评估)在多模态 LLM 中显示出不稳定和不可靠。
为此,这里进行了一项基于 LLaVA-v1.5 的对比实验。在该实验中,研究者们在不同规模的高质量预训练数据上训练了 LLaVA-v1.5 的 7B 模型,并采用多种评估方法来测试预训练质量,最终将这些评估结果与经过 SFT 后的下游基准测试进行比较。
实验结果表明,损失值、困惑度和上下文评估并未能准确反映 SFT 后模型的实际性能,而研究者们提出的模态融合率(MIR)则能够有效对应模型的表现。
PPL 等指标的低效性实际上源于 LLM 与 MLLM 在预训练目标上的本质差异。LLM 的预训练主要聚焦于学习语言的基本结构,而 MLLM 则更强调不同模态之间的对齐。
通过使用多个来源的图像和文本数据,并在 LLaVA-v1.5 的基座大模型输入层可视化这些特征分布,研究者们可以看到,如左图所示,尽管图像和文本的内容丰富多样,但在各个模态内部,其分布较为均匀,而不同模态之间却存在显著的分布差异。
如右图所示,进一步计算当前 MLLM 在不同层次中的模态差距时,可以观察到,在浅层时,模态之间仍存在较大差异。然而,随着层次的加深,这种差距逐渐缩小。这表明在训练过程中,MLLM 仍需学习如何对齐不同的分布,以更好地理解新引入的模态。
2、方法
给定一个预训练的多模态大模型 ,其中 是视觉编码器, 是视觉语言映射模块, 表示包含分词器 和 K 层 transformer 模块 的底座大模型。
当输入一组“图像-文本”对数据 给模型,将从大模型第 k 层 得到该层关于数据对 的视觉 token 特征 和文本 token 特征 ,即:
为了计算全局模态域间差异,可将多个样本的特征 合并到一起得到 ,同理 可以合并得到 ,并且定义 为第 i 个视觉 token 特征, 为第 j 个文本 token 特征。
2.1 文本中心归一化
研究者们观察到越深层的 token 特征在数值绝对尺度上比浅层的大非常多,考虑到不同模态特征间绝对尺度的差异,直接使用如 Frechet 距离等度量函数、或是将所有 token 特征统一归一化后再使用度量函数都是不合适的。
因此,这里提出了一种文本中心的归一化方法,对于 中的总共 s 个文本 token 特征,计算尺度因子:
然后对第 k 层对应的视觉 token 特征和文本 token 特征都使用该因子进行放缩,来保证跨层比较的合理性同时保持模态间绝对尺度带来的差异。
2.2 离群值筛除
之前一些工作 [1, 2] 提到有极少部分绝对数值异常大的 token 会用来在注意力计算的 SoftMax 函数中使总和填充到 1 的一些离群值 token 出现。为避免离群 token 对整体统计分布的影响,研究者们使用“3-sigma”的准则对于所有 和 中的离群 token 进行筛除。这里用 omega 表示这个操作。
2.3 模态融合率MIR
通过文本中心归一化以及离群 token 筛除之后,模态融合率 MIR 由计算大模型逐层的模态域间距离累和来得到:
其中 和 分别是处理后视觉 token 特征和文本 token 特征的均值,而后一项包含对于各自的协方差计算,即:
后一项中的平方根项在 PyTorch 中计算缓慢,这是由于大模型的特征维度高导致。因此研究者们使用了 Newton-Schulz 迭代近似,保证在实践中误差不超过 1%,且大幅提高整体计算速度达到实用标准。总之,越低的 MIR 代表着预训练中越高的模态对齐质量。
2.4 可学习模态校准MoCa
在对模态融合率(MIR)的研究过程中,研究者们发现基础 LLM 在训练时展现出模态间差距逐渐缩小的趋势,尤其是在浅层。这一发现促使研究者们重新审视一些 MLLM 中继承自 LLM 的设计,这些设计可能妨碍跨模态对齐,例如使用相同的归一化模块。由于该模块是在语言数据上预训练的,自然偏向于文本处理,这会干扰视觉信息,进而阻碍有效的跨模态对齐。
因此,研究者提出了 MoCa,这是一种可插拔的轻量级可学习模块,用于促进跨模态对齐。具体来说,MoCa 对第 k 层的视觉 token 特征进行单独的可学习缩放和偏移处理,即通过这样的方式增强对齐能力,即:
其中缩放向量 u 初始化为全一向量,偏移向量 v 初始化为全 0 向量,两者随着模型一起训练,但是基本等同于不增加参数量。
3、实验
第一个实验说明了 MIR 在扩大预训练数据规模时,用来衡量预训练质量的有效性。研究者们以 LLaVA-v1.5 7B 为 baseline 模型,从两个高质量数据集 ALLaVA 和 ShareGPT4V-PT 得到约 1.8M“图像-文本”对数据,并用其不同规模的数据量进行了不同的预训练,来探究预训练数据规模与模型性能之间的关系。
研究者们采用两种预训练策略:1)仅训练 MLP 投影模块;2)解锁视觉编码器后半部分和整个 LLM。在第一种策略下,微调后的性能在 800K∼1M 数据规模时逐渐改善但趋于平稳,表明跨模态对齐的提升遇到瓶颈。而在使用第二种策略时,即使在 1.8M 数据规模下,模型能力仍在持续提升。
因此,一方面体现了 MIR 在增广预训练数据时的有效性,另一方面也说明了在训练时适当放开视觉编码器或 LLM 可以在大规模数据上持续提升预训练的上限。
第二个实验利用 MIR 的能力来探讨预训练数据中文本详细程度与预训练质量的联系。这里研究者们通过截断原始长 caption 生成不同长度的图像 caption,以构建不同的详细程度的数据。结果表明训练于更详细 caption 数据的模型通常具有较低的 MIR 值,且与 SFT 后测试基准结果正相关。
第四个实验是探讨 MIR 在超参数优化和预训练策略选择中的有效性。为此,研究者们以 LLaVA-v1.5 的 7B 模型为基础,统一了所有实验中的有监督微调(SFT),以便分析不同训练配置和策略对预训练阶段的影响。
在训练配置方面,研究者发现 MIR 与微调后的基准性能之间存在正相关关系,这表明 MIR 可以直接反映不同训练超参数对预训练质量的影响。因此,通过对照 MIR,未来可以实现对预训练参数的有效调整和优化。
第四个实验是在训练策略的研究中,研究者们探讨 了 MIR 如何指导选择有效的解锁策略。结果表明,解锁 LLM 的参数显著降低了 MIR,提升了模型的多模态能力,这一现象表明 MIR 与预训练质量之间存在紧密关联。尤其是在处理高度详细的图像-文本数据时,解锁 LLM 的前半部分或整个 LLM 显著增强了模型在视觉与语言之间的对齐能力,从而促进了微调后的性能提升。
第五个实验中,研究者们表明 MIR 也可以帮助选择一些有利于跨模态对齐的模块设计。如下图所示,在使用不同的视觉语言投影模块结构时,MIR 可以很准确的对应到 SFT 之后的测试基准性能。
最后,研究者们也证明了所提出的可学习模态校准 MoCa 可以非常有效帮助不同模型在训练过程中涨点,同时取得更低的 MIR。
本文还有相当多其他实验、探索和干货,有兴趣的同学欢迎参考原文。
[1] Xiao et al. Efficient Streaming Language Models with Attention Sinks. ICLR, 2024. [2] Sun et al. Massive Activations in Large Language Models. COLM, 2024.