原文:https://zhuanlan.zhihu.com/p/6762892397
多模态大模型(MLLMs)虽然在视觉与语言理解任务上取得了显著进展,但仍面临“幻觉”现象,即生成的描述可能不符合视觉内容。为了解决这一问题,研究人员提出了偏好对齐(preference alignment)方法来增强模型与图像内容的契合度。然而,由于偏好数据集、基模型类型和对齐方法的差异,目前尚不清楚具体哪些因素对性能提升最为关键。因此,本研究旨在通过独立分析各个因素,探索不同的对齐方法对MLLMs性能的影响。
主要贡献
1.
对齐方法分类
:本文将偏好对齐方法分为离线方法(如DPO)和在线方法(如在线DPO),并证明结合离线和在线方法可在某些情况下进一步提升模型性能。
2.
偏好数据集分析
:回顾了多种已发布的多模态偏好数据集,并分析其构建细节如何影响模型表现,提供了对数据集在不同应用场景下的性能影响的全面见解。
3.
偏好数据采样新方法
:提出了“偏差驱动幻觉采样”(Bias-Driven Hallucination Sampling, BDHS),无需额外的人工标注或外部模型支持,仅依赖于偏差驱动的采样,即可生成具有竞争力的对齐数据。
4.
系统化实验验证
:在多个基准任务上验证BDHS的效果,展示了其在减少幻觉现象方面的有效性,与更大规模的偏好数据集相比,BDHS依然表现出色。
技术细节
多模态偏好数据的组成
多模态偏好数据通常由一个或多个多模态大语言模型(MLLMs)生成的响应构建,且通常不包含待对齐的模型。偏好数据包含以下三个关键元素:
-
•
提示语
:由文本指令和相应的图像组成。提示语可以是通用的(例如,“图中提到的书名是什么?”)或具有特定领域的专业性(例如,“你是一名驾驶助理。基于当前图像,行驶在路上时应采取的最佳行动是什么?”)。提示语的选择影响了模型的理解和生成。
-
•
优选响应
:是模型在对齐后应优先选择的正确响应,通常不包含幻觉信息,提供准确的事实或遵循指令。优选响应代表了偏好对齐的目标,即模型应生成符合图像内容和事实的准确回答。
-
•
拒绝响应
:是优选响应的对立项,在对齐后模型不应优先选择拒绝响应。这些响应可能包含错误信息、不符合图像内容或偏离指令,适用于模型对齐中作为负面示例。
多模态偏好数据的结构为多模态对齐提供了一个一致的框架,而在线偏好对齐方法如在线DPO,也遵循相同的结构进行在线偏好数据生成和优化。
负样本的生成过程
POVID-Style 图像失真
在多模态大语言模型(MLLMs)中,由于底层语言模型通常在孤立状态下进行预训练,导致模型更倾向于依赖训练数据中的记忆,而非图像信息。为此,Zhou等人提出一种称为POVID的策略,通过向模型提供带噪图像生成非优选响应,以诱发模型的幻觉。该方法采用高斯噪声逐步对图像进行扩散处理(默认500步),生成带噪声的图像输入,帮助模型在仅有限图像访问的情况下生成不准确的响应。这种方法虽然无需外部教师模型或人工注释,但噪声步数的选择对模型效果具有重要影响。较少的扩散步数会导致图像失真不足,而过多步数则可能导致响应内容主要基于噪声。
偏见驱动的幻觉采样(BDHS)
为改进POVID方法中噪声控制的不足,BDHS提出通过注意力屏蔽在潜在空间限制图像信息访问。首先,模型在有限的图像信息下生成幻觉响应,其生成过程通过随机屏蔽部分图像嵌入(embedding)实现。其次,BDHS采用参考引导生成策略,使得生成的非优选响应在保持主要风格和结构的前提下,尽量接近优选响应。最后,使用现成的句子嵌入对生成的非优选响应进行相似度验证,确保非优选响应在语义上与优选响应具有显著差异,从而提高反馈信号的有效性。BDHS具备无注释和高效计算的优点,可用于在线生成拒绝响应。
引发语言模型偏见的注意力屏蔽
BDHS通过随机屏蔽部分图像嵌入来诱导模型的幻觉响应。具体操作是定义一个布尔掩码m,其维度等于图像嵌入的向量数量,屏蔽部分图像嵌入。实验表明,使用接近完全屏蔽的掩码可以诱导模型产生更明显的幻觉,这种方法避免了图像逐像素添加噪声的不便性。
确保语义上的显著差异
为了避免生成的非优选响应只是对优选响应的简单改写,BDHS在生成非优选响应后进行语义相似度检测,若相似度超过设定阈值,则重新生成该响应。此方法不仅能保证生成的响应在语义上显著不同,还能直观地调节生成参数,使生成的非优选响应更具学习价值。
有趣的实验发现
主要组件在MLLM对齐中的作用
通过一系列实验发现了多模态大模型(MLLM)对齐的重要组件。首先,在离线DPO方法和在线DPO方法的对比中发现,离线DPO对减少幻觉(hallucination)现象更有效,特别是在POPE和MMHALBench-V等基准上表现突出,而在线DPO在开放问答任务(如LLaVABench-in-the-Wild)中的效果更好。混合DPO(Mixed-DPO)结合了两者优势,显示出在多项基准测试中的持续改进。相比于依赖GPT-4V等高级模型的数据生成方式,新的BDHS方法无需额外的标注或偏好数据,且性能依然优越,尤其在MMHALBench-V上缩小了性能差距,成为一种具有成本效益的对齐方法。
对齐数据集的关键要素
对于对齐数据集的不同构建方式,实验显示了一些关键要点。相比单一来源,使用多样化的提示和多样化的选定响应(chosen response)显著提升了对齐效果。此外,实验结果表明,即使是规模较小且只基于GPT-4V生成的VLFeedbackCorrupted(5k)数据集,在减少幻觉方面的表现也不逊色于更大规模的VLFeedback(full)数据集。这表明,通过高质量的选定响应和细微差异构建偏好对(如在VLFeedbackCorrupted中实现的方式)可以高效地减少幻觉。
去除混杂因素以优化对齐
为了更准确地分析偏好数据集对对齐效果的影响,实验控制了数据集大小(限制在5000条样本)。在这些实验中,POVID在POPE基准上表现最佳,VLFeedback在LLaVABench-in-the-Wild上表现最优,而RLHF-V在某些测试中展现了较高的灵活性。尤其在MMHALBench-V上,使用腐化策略(corruption strategy)的VLFeedback表现优于原始数据集,显示了以腐化生成非偏好响应(rejected response)的方法的有效性。
对偏好数据集构建的深入探索
进一步的实验探讨了不同偏好数据构建方式的影响。首先,将多样化的提示策略与仅来自LLaVA-Instruct-150k的提示进行了对比,结果表明多样化的提示策略有助于提升在开放式测试(如LLaVABench-in-the-Wild)中的表现。同时,实验发现从弱模型(如LLaVA 1.5-7B)生成的响应也可以成为有效的偏好数据,证明了即使是较弱模型的响应在合理采样和腐化后依然具有学习价值。
RLHF对齐方法的效果评估
在RLHF对齐中,首先训练了一个奖励模型,用于评估模型生成的响应质量。实验中使用了POVID、RLHF-V和VLFeedback等偏好数据集对奖励模型进行训练,并在保留的验证集上测试其分类精度(即区分偏好和非偏好响应的能力)。结果显示,VLFeedback数据集训练的奖励模型在各个验证集上均表现最佳,这可能是因为该数据集规模更大、数据更为多样。相反,POVID和RLHF-V数据集的奖励模型在泛化能力上较弱,且在不同数据集上的表现甚至低于随机选择的基线。进一步结合POVID和RLHF-V进行奖励模型训练,尽管有所提升,但仍未能有效泛化至VLFeedback数据集。
RL对齐的稳定性挑战
在RL训练中,采用了基于POVID和VLFeedback的奖励模型来进行PPO和RLOO训练。实验发现,使用POVID训练的奖励模型导致了RL训练中的模型崩溃,而基于VLFeedback的奖励模型提供了更稳定的训练过程。这表明,VLFeedback不仅在数据规模上占优,同时由于其基于排名的响应构建策略更符合奖励模型的下游目标,因此在稳定性上表现更佳。尽管如此,即便是稳定的VLFeedback奖励模型,仍未能在性能上明显超越更简单的DPO基线方法。这表明,RL对齐方法可能需要更为多样且精心构建的数据,以提升其有效性。
在线与混合DPO对齐方法的效果
在POVID和RLHF-V数据集上应用了在线DPO和混合DPO策略。实验结果表明,混合DPO通常能调和DPO和在线DPO的性能差异,在性能上提供较为适中的结果。在RLHF-V数据集上,在线DPO在所有基准测试中均优于DPO,表明在线采样对模型效果的提升较为显著。然而在POVID数据集上,混合DPO则能有效利用离线和在线DPO的互补优势,优化整体性能。