在评估时,研究者使用了 9 个 ImageQA 基准来评估模型的不同方面,包括 MMBench、Seed、VStar、MMVP、MMMU、ChartQA、TextVQA、ScienceQA、RealWorldQA。
通过视觉理解联合训练可以高效解锁视觉生成能力
研究者首先调研了教(teach)语言模型生成高质量视觉 token 所需的图文样本数量。为此,他们从生成数据(MetaCLIP 数据集)中随机抽取 {1k、5k、10k、50k、200k、1M、3M、5M} 个图文对。同时探索了两种设置:1)仅使用视觉生成数据对 LLM 进行微调,2)使用视觉理解和其他类型的数据来联合训练视觉生成。
在下图 2 中,研究者发现仅对视觉生成进行训练的表现明显差于使用所有其他数据的联合训练。在超过 300 万个图文对的情况下,模型很难生成高质量的视觉图像(∼40 FID 分数),并且性能仍然不如使用 500 万个图文对进行联合训练的情况。这表明仅对视觉生成数据进行训练的样本效率明显较低。
相比之下,与其他数据集联合训练可以显著提高生成性能。模型仅使用 5k 生成数据即可生成有效的视觉 token,性能在 200k 样本左右可以保持稳定。这表明视觉生成不是一种正交能力,而是一种受益于其他任务并在联合训练中更有效出现的能力。
为了更好地理解每种类型的数据如何有助于视觉生成,研究者使用 200k 视觉生成数据进行了一项可控实验,使用前文展示的每种类型数据进行单独联合训练。他们还将单独训练与一起训练所有数据进行了比较。下图 3 中展示了结果。
结果表明,虽然所有数据类型都增强了模型视觉生成能力,但改进程度各不相同。即使生成数据量保持在 200k 不变,ImageQA 和 VideoQA 等视觉理解数据也能显著提升模型视觉生成能力。这表明理解视觉内容的能力与生成视觉 token 之间存在很强的联系。此外,在训练中结合所有数据类型可以进一步提高性能,这表明不同数据类型带来的好处可以叠加。
发现 1:当模型与视觉理解数据联合训练时,与仅在生成数据上进行训练相比,可以使用明显更少的生成数据来解锁生成视觉 token 的能力。
视觉理解与生成互惠互利
更多的理解数据可以带来更好的理解和生成性能。基于上文发现,研究者进行了一项对照实验,以研究视觉理解能力与视觉生成能力之间的关系。他们使用一组固定的 200k 生成数据来进行模型消融,同时利用 Cambrian-7M 的 1M 到 7M 样本的 VQA 数据变化来开发不同级别的视觉理解。下图 4 中显示的结果表明,更强的 VQA 能力与更好的生成性能具有相关性。
更多的生成数据同样可以带来更好的理解和生成性能。研究者探索了视觉生成能力的提高是否也与更高的 VQA 性能有关,为此他们使用固定的 1M VQA 样本作为理解基线进行了一项对照实验。然后改变生成数据的数量({200k、500k、1M、2M、3M、4M})以调整生成能力,同时与固定的 1M VQA 数据进行联合训练。下图 5 的结果显示,在 1M VQA 设置中,更强的生成能力与 VQA 性能的提升相关。这意味着增加生成数据量不仅可以增强生成能力,而且还会对 VQA 性能产生积极影响。
这种协同作用可以扩展到不同的 LLM。研究者探究研究结果是否可以迁移到不同的 LLM 主干。通过使用 7M VQA 样本和 1M 生成数据的组合,他们在 LLaMA-3 8B、LLaMA-3.1 8B 和 LLaMA-3 70B 上训练 VPiT。下图 6 显示了不同 LLM 之间的扩展行为。
发现 2:视觉理解和视觉生成相辅相成,增加任意一项任务的数据都会同时增强两者的性能。
理解数据可以实现更多增益
研究者调研了理解与生成数据是否同等重要,他们联合训练了不同规模的 VQA 数据(f1M、4M、7M)和生成数据(200k、500k、1M、2M、3M、4M)。下图 7 总结了这些发现,其中 x 轴表示 VQA 数据,y 轴表示生成数据。结果通过热图可视化,其中较深的颜色代表更好的性能。
结果表明,增加 VQA 数据可以在所有三个指标中产生最显著的改进。当 VQA 数据较低(1M)时,随着 VQA 数据的扩大(从 1M 到 4M 再到 7M),生成数据的增加会带来显著的改进。不过,VQA 数据的影响更加明显,热图中急剧的颜色过渡证明了这一点。最终,对于 7M VQA 数据,生成数据的增加贡献很小。这些结果证明了理解数据在增强理解和生成性能方面具有关键作用。
发现 3:虽然增加数据可以提升整体性能,但视觉理解数据的影响明显高于视觉生成数据的影响。
某些理解任务与生成性能更相关
鉴于 OCR、以视觉为中心的任务和基于知识的任务等理解任务的多样性,论文研究了哪些任务与生成能力的相关性最强。受 Cambrian-1 的启发,研究者将 VQA 任务分为五组:一般、文本和图表、高分辨率、知识和以视觉为中心的 VQA。研究者利用早先的实验结果,用不同数量的生成数据联合训练各种 VQA 数据规模,并在图 8 中绘制了每个基准的 VQA 性能与生成性能的对比图。他们还计算了 VQA 分数与 FID/CLIP 分数之间的皮尔逊相关性 (ρ)。
图 8 显示,通用、视觉中心和文本与图表 VQA 任务与生成性能密切相关,每个任务的皮尔逊相关系数(p)都高于 0.85。高分辨率 VQA 表现出中等程度的相关性,p 约为 0.7。相比之下,知识 VQA 任务(如 MMMU)的相关性较弱,这表明生成能力与生成性能的相关性更为密切。这与模型的视觉能力有关,而与知识特定任务无关。
发现 4:通用、视觉中心和文本理解的 VQA 任务与视觉生成有很强的相关性,而基于知识的 VQA 任务则没有。
MetaMorph 模型
理解和生成表现
研究者将 MetaMorph 与其他统一模型进行了比较,并在表 1 中总结了结果。
MetaMorph 利用 LLM 知识进行视觉生成
MetaMorph 能有效利用预训练的 LLM 中蕴含的世界知识,图 9 左侧展示了一些例子。研究者去非难和专业化,例子包括 Chhogori(世界第二高峰)、Oncilla(南美洲的一种小野猫)和 Chizarira(津巴布韦一个与世隔绝的荒野地区)。
MetaMorph 成功地将特定领域的知识转化为准确的视觉 token,从而展示了从 LLM 中利用世界知识的能力。与此相反,最新的文本到图像(T2I)模型 StableDiffusion-3.5 8B,尽管生成了高质量的图像,却很难生成正确的概念。这个问题可能源于它所使用的文本嵌入模型 CLIP 和 T5,它们未能正确编码这些专业术语。
图 9 右侧展示了 MetaMorph 如何比 CLIP 和 T5 等文本嵌入模型更有效地处理常见的语义难题。这些挑战包括否定和主观性,MetaMorph 使用了在 Multimon 中识别出的常见失败模式的提示来区分语义的细微差别,如「稍微」与「非常」、「少数」与「许多」、「没有」与「有」,这些都是现有文本到图像系统中常见的失败。
多模态生成推理
图 10 中,研究者展示了模型根据谜题提示生成图像的例子,例如「国家公园位于」。在每道谜题中,都直接使用了「黄石公园所在国家的国家公园」这一提示语,而没有使用任何思维链(CoT)提示语「生成谜题图片」。MetaMorph 可以从需要多步推理的提示中生成正确的图像。
例如,在回答「一种乐器,这种乐器通常由 theity 演奏」这一问题时,该模型需要隐式地完成三个推理科学家是谁提出了狭义相对论的步骤:识别出爱因斯坦是提出狭义相对论的科学家;识别出爱因斯坦的首选乐器是小提琴,并直接生成正确的视觉 token;然后完成推理过程。这一结果意味着,MetaMorph 在紧接着提示的生成过程中,隐式地明确分离了这些步骤。这些结果解决了谜题,并生成了正确的视觉 token,与《LLMs 物理学》的研究结果一致,作者认为 LLM 可以生成后续 token。在这里,研究者展示了在自回归之前预先计算推理图的能力,即使在解码视觉 token 时,这种能力也能转移到统一多模态模型设置中。
更多技术细节请参阅原论文。