尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),
是否与人类偏好对齐可以全面提升 MLLM 的各种能力仍是一个未知数。
快手,中科院,南大合作从三个层面入手推动 MLLM alignment 的发展,包括数据集,奖励模型以及训练算法,最终的 alignment pipeline 使得不同基础模型在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对 LLaVA-ov-7B 模型进行微调后,conversational 能力平均提升了 19.5%,安全性平均提升了 60%。
偏好数据,训练算法,模型以及评估 pipeline 均已全面开源。
该方法在 twitter 上也引起了热议,被评为
多模态 alignment 的 game-changers。
https://arxiv.org/abs/2502.10391
https://github.com/Kwai-YuanQi/MM-RLHF
https://mm-rlhf.github.io/
https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen
https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench
https://github.com/yfzhang114/mmrlhf-eval
https://github.com/yfzhang114/mmrlhf-eval
1、主要贡献
新数据集:
本文引入了一个包含 120k 精细标注的偏好比较对的数据集,包含三个维度的打分,排序,文本描述的具体原因以及平局等标注,
所有标注由人类专家完成,
一共 50 名标注人员,8 名专家,耗时两个月。与现有资源相比,这一数据集在规模、样本多样性、标注粒度和质量等方面都有显著提升。
创新的奖励模型:
提出了
基于批评的奖励模型(Critique-Based Reward Model)
,该模型首先对模型输出进行批评,然后再进行评分。这一方法相比传统的标量奖励机制,提供了更好的可解释性和更多信息量的反馈,基于该方法的模型只需要 7B size,在 reward model benchmark 就明显优于现有公开的 72B-size 的 MLLM。
动态奖励缩放:
提出了
动态奖励缩放(Dynamic Reward Scaling)方法
,通过根据奖励信号调整每个样本的损失权重,优化了高质量比较对的使用,进一步提高了数据的使用效率。
全面评估:
本文在 10 个维度和 27 个基准上对提出的方案进行了严格评估,
同时构造了一个 reward model 的 benchmark 以及 safety 相关的 benchmark 来弥补现有 benchmark
的不足,结果显示,在各个方面均取得了显著且一致的性能提升。
2、MM-RLHF 人类偏好数据
数据来源:
图像数据来源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,总共 10M,视频数据来源主要是 SharedGPT-4-video,安全性相关的数据来源主要包括 VLGuard 和自构造内容。
数据过滤与模型响应生成:
通过预定义的多选题,长文本等类别均匀采样,确保少数类也有足够的样本。同时采用了 knn 聚类并采样的策略,保证数据的 diversity。响应生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等最先进的 MLLM。
数据标注:
主要包含三个维度,有用性,真实性,伦理性,同时标注人员需要提供打分的依据,最终排名以及排名的依据,标注粒度细,通过专家定期进行质量检查和互动评审保证标注质量。
3、MM-RLHF 奖励模型
标准奖励模型通常通过预训练的 LLM,并用线性奖励头替换原有头部,以输出一个标量奖励值。然而,这些模型难以充分利用人类注释中的丰富信息,也不具备足够的透明性。
为了解决标准奖励模型的局限性,本文提出了一种基于批评的训练框架。在这个框架中,模型首先生成批评(对响应的分析和评估),然后基于批评来打分。批评生成部分与打分部分共同作用,确保了更细致的评价。
增强注释以提高批评质量:
由于人工注释往往简洁且精炼,直接使用它们作为训练目标效果有限。因此,本文通过 GPT-4o 增强人工注释,使其更为详细和流畅,从而提高批评的质量。
在训练过程中,批评的生成与奖励头的训练同时进行,在训练奖励头时采取了 teacher-forcing 的策略,即采用了 ground truth 的批评作为输入,默认损失权重都为 1。测试阶段先生成批评,然后基于批评得出最终得分。
性能评估
该模型框架简单,且在多个基准测试中的表现与 GPT-4o 相媲美,甚至超越了许多开源模型,表现出色,尤其在自定义基准测试中,其表现远超 GPT-4o,这验证了其作为训练算法奖励信号的有效性。
表 4 中也展示了,当奖励头直接使用偏好数据集进行训练时,模型的 ACC+ 稳定在 50% 左右。然而,当引入人工注释作为学习目标时,ACC+ 稳定提升了 5%。进一步通过 GPT-4o 扩展人工注释,生成更加详细和流畅的批评,最终提高了 ACC+ 达 17%。当评估时直接使用人工批评时,ACC 和 ACC+ 均接近 90%,表明评估质量对奖励模型效果的至关重要性。
4、MM-DPO:有效利用高质量偏好数据
要有效利用 MM-RLHF 中的高质量数据,我们有以下的实验发现和技巧:
MM-DPO 不再仅仅关注“最难的比较对”(即排名差异最大的一对),
而是将一个查询下所有可能的响应对都纳入训练。具体来说,对于一个查询
,如果有多个响应,每一对具有不同排名的响应都被视为一个有效的比较对。这种全面的处理方式可以捕捉更细粒度的排序信息,让模型从更广泛的偏好数据中学习。
然而,这种策略也带来了新的挑战:
当响应对的排名差异较小时(例如排名 3 和排名 4 的比较),其奖励差距(reward margin)往往较小,而排名差异较大的响应对(例如排名 1 和排名 4 的比较)包含的信息质量更高。如果对所有样本对一视同仁,会导致高置信度的信息被低效利用。
为了解决这个问题,MM-DPO 引入了动态奖励缩放(Dynamic Reward Scaling)机制,根据奖励差距动态调整更新强度,优先利用高置信度的样本对。具体而言,奖励模型可以自然地为样本对提供奖励差距(reward margin),这为动态控制样本的更新权重提供了一个直接的信号。
本文采用 MM-RLHF-Reward-7B 模型来计算奖励差距
,其中
和
分别是正样本和负样本的奖励分数。