1
引言
学习评估的能力在现代大型多模态模型 (LMM) 的发展中正变得越来越重要,因为在现有网络数据上的预训练已趋于成熟,重点正在转向使用 AI 增强合成数据进行训练后训练,这显示出越来越大的潜力。
可靠的 AI 评估至关重要,不仅可以为复杂的任务评估提供可扩展的解决方案以减少人工,还可以为强化学习生成有效的奖励信号,并指导推理时间的搜索
(Ouyang 等人,2022;OpenAI,2024a;Snell 等人,2024)
。
现有的 LMM 在最近的研究界取得了巨大进步
(Li 等人,2023a)
,主要是在提高各种真实世界视觉任务在单图像
(Liu 等人,2023b;Bai 等人,2023;Chen 等人,2023b)
、多图像
(Li 等人,2024c;Jiang 等人,2024)
和视频场景
(Li 等人,2024b;Lin 等人,2024;Wang 等人,2024b)
中的性能。
开发开放式 LMM 来扮演评判者的角色并评估多模态模型的性能仍然是未开发的领域。
例如,一个模型可以遵循精心设计的、逐项的评估标准,为视觉聊天任务中不同模型响应的评分提供 1 到 10 之间的分数
(Liu 等人,2023b)
。
除了分数之外,它还会提供与评估相关的推理,以确保评估模型性能时的透明度和一致性。
在本文中,我们首次尝试策划专门用于评估的指令遵循数据,在此基础上,我们开发了一个 LMM,LLaVA-Critic。
构建 LLaVA-Critic 的两个主要场景/目标被强调:
•
场景 1:LMM 作为评判者
。
开源的 LMM 可以提供可靠的评估分数,与专有模型(如 GPT-4V
(OpenAI, 2023)
/GPT-4o
(OpenAI, 2024b)
)相当或更胜一筹。
这些模型可以作为商业 GPT 模型的免费替代品,用于各种评估基准。
•
场景 2:偏好学习
。
一种可扩展的解决方案,用于生成有效的奖励信号,减少对昂贵的人类反馈收集的需求。
这种方法增强了与 AI 生成的反馈的偏好一致性。
我们的实验结果表明:
(
i
)
作为评判模型,LLaVA-Critic 提供的评估分数和排名与商业 GPT 模型高度相关,使其成为资源受限环境中模型开发人员的经济高效替代方案;
(
i
i
)
在偏好学习中,LLaVA-Critic 在迭代直接偏好优化 (DPO)
(Rafailov et al., 2024)
中提供 AI 生成的反馈,优于 LLaVA-RLHF
(Sun et al., 2023)
中奖励模型提供的偏好信号,后者依赖于人类反馈来训练奖励模型。
总之,我们的贡献如下:
•
评判指令遵循数据
:我们提供了一个高质量的数据集,专门针对复杂评估环境中的指令遵循,以提供定量判断和相应的推理过程。
它包含 46,000 张图像,包含 113,000 个评估指令样本,包括点状和成对评估设置。
•
大型多模态模型
:我们开发了 LLaVA-Critic,LMMs 扩展了开放模型的能力,可以扮演评判者的角色,提供有效的评估和反馈。
•
开源
:为了支持通用视觉助理的开发,我们将我们的评判指令数据、代码库、模型检查点和训练好的视觉聊天演示发布给公众。
2
相关工作
LMM 作为评判者。
强大的专有 LMM(如 GPT-4V/GPT-4o)已被证明可以作为视觉语言任务的通用评估器
(Zhang et al., 2023a; Ge et al., 2023)
。
具体而言,对于与人类判断相关的复杂场景(如视觉聊天和详细字幕),LMM 已被用于评估基准,以判断模型的响应,包括点状设置
(Liu et al., 2023b; Yu et al., 2023a; Sun et al., 2023; Zhang et al., 2024a; Li et al., 2024a; Zhang et al., 2024b)
和成对设置
(Lu et al., 2024; Yu et al., 2024b)
。
我们的 LLaVA-Critic 在这些评估场景中被评估为开源替代方案,具有廉价和定制评估的优势。
对于开源模型,Prometheus-Vision
(Lee 等人,2024)
是第一个被训练为针对特定用户设计评分标准的评估器的 VLM。
虽然共享相同的开源精神,但我们提出的 LLaVA-Critic 作为第一个开放式通用评估器受到青睐。
请注意,GPT 也被用于从 LMM 响应中提取答案以供后续评估,这在某些基准测试中有所体现
(Lu 等人,2023;Guan 等人,2024;Wang 等人,2024d)
。
这种用于评估的提取功能超出了本文的范围。
LMM 的偏好学习。
来自人类反馈的强化学习 (RLHF) 是一种行之有效的方法,可以使大型语言模型 (LLM) 与人类意图相一致。
DPO
(Rafailov 等人,2024)
在 RLHF 中引入了奖励模型的新参数化,使直接优化使用成对偏好数据集成为可能。
CriticGPT
(McAleese 等人,2024)
训练了“评论者”模型,这些模型有助于评估模型生成的代码,这进一步被用作反馈信号来改进代码 LLM。
偏好学习的概念最近已从语言模型扩展到多模态空间。
LLaVA-RLHF
(Sun 等人,2023)
是该领域第一个开源作品,它使用人类评分排名来改进 LMM 的视觉聊天能力。
此后,关于 LMM 偏好学习的研究在多项研究中取得了进展。
BPO
(Pi 等人,2024)
通过引入模型本身生成的负面响应来进行偏好学习,使用扭曲的图像或基于文本的 LLM 来注入错误。
Wang 等人 (2024a)
提出了 mDPO,它引入了条件偏好优化以强调图像信息。
其他研究将偏好对齐应用于减少幻觉并增强视觉语言模型 (VLM) 的整体能力,无论是通过人类反馈(例如,RLHF-V
(Yu 等人,2024a)
)还是人工智能反馈(例如,Silkie:VLFeedback
(Li 等人,2023c)
)。
几种方法使用自我奖励机制来最小化对外部偏好对的依赖,例如分治策略
(Yu 等人,2024b)
(RLAIF-V),句子级束搜索
(Zhou 等人,2024b)
,故意幻觉注入
(Zhou 等人,2024a)
,或基于度量的自我批评提示
(Wang 等人,2024c)
。
作为通用评估器,LLaVA-Critic 可以为 LMM 对齐提供有价值的反馈,为自我改进的 AI 模型铺平道路。
3
数据收集
我们现在介绍LLaVA-Critic训练数据集的数据收集过程。
将GPT-4/4V用作LMM的通用评估器可以广泛地分为两种设置:
(
i
)
逐点评分
:GPT为单个候选响应分配分数,可以通过根据预定义的标准直接对其进行评估,也可以相对于固定参考答案对其进行评分。
此设置可以被视为
Zheng等人(2024)
中讨论的
单答案评分
和
参考评分
方法的结合。
(
i
i
)
成对排名
:GPT比较两个候选响应以确定它们的相对质量(或宣布平局)。
为了使LLaVA-Critic具备与GPT-4V一样的通用评估能力,我们设计了一个GPT辅助管道来为两种设置整理我们的训练数据集。
表格
1
显示了LLaVA-Critic训练数据的示例。
3.1
逐点数据
为了训练一个用于评估单个 LMM 响应的通用评论模型,每个逐点训练数据实例包含以下组件:多模态指令(即问题-图像对)、模型响应、可选的参考答案(取决于评估提示)、评估提示、判断分数以及相应的分数理由。
通过按顺序排列它们,训练样本为:
(Image, Question, Response, Reference, Evaluation Criteria,
Score
,
Reason
)
,
其中绿色部分被视为模型输出以计算自回归损失,
分数
和
理由
的顺序由评估提示指定。
我们从 8 个多模态指令调整数据集中选择多模态指令,涵盖广泛的任务,包括:(1)一般视觉对话、详细字幕和推理(LLaVA-Instruction-150k
(Liu 等人,2023b)
, SVIT
(赵等人, 2023)
); (2)更具挑战性的任务,例如复杂推理(ComVint
(Du 等人, 2023)
)、丰富文本理解(LLaVAR
(Zhang 等人, 2023b)
)和面向鲁棒性的指令(LRV-Instruction
(Liu 等人, 2023a)
); (3)各种特定领域,例如学术问答(M3IT
(李等人,2023d)
)、医学图像理解(LLaVA-Med
(李等人,2023b)
)和体现决策(PCA-EVAL
(Chen 等人, 2023a)
)。
对于每个多模态指令,我们从 VLFeedback
(Li et al., 2023c)
中选择一个或多个模型响应,VLFeedback 收集了来自 12 个现成 LMM 的多个响应。
此外,我们使用 GPT-4o(领先的商业 LMM)生成响应,以作为高质量的参考答案。
为了让 LLaVA-Critic 具备跨各种任务的一般评估能力,我们从 7 个广泛使用多模态基准中构建了一个评估提示池,这些基准利用 GPT 作为评判者,包括 LLaVA-in-the-Wild
(Liu et al., 2023b)
, LLaVA-Wilder
(Li et al., 2024a)
, Image Detailed Captioning
(Li et al., 2024a)
, MMHal-Bench
(Sun et al., 2023)
, MMVet
(Yu et al., 2023b)
, WildVision-Bench
(Lu et al., 2024)
和 RefoMB
(Yu et al., 2024b)
.
1
需要额外文本上下文 (因为他们使用纯文本 GPT-4 作为评估者) 的提示被调整为关注输入图像,更好地与 LMM 评估者设置对齐。
为了根据每个评估提示构建训练数据,我们根据指定的评估场景选择多模态指令和模型响应,并在必要时包含来自 GPT-4o 的参考答案。
然后将这些组件组装成评估提示,并用作 GPT-4o (作为评判者) 的输入,以提供高质量的判断分数和模型响应的详细理由。
最后,我们的点训练数据集包含总共 18,915 个问答图像对和 72,782 个评论数据样本。
3.2
成对数据
成对数据包含具有已知偏好关系的响应。
在我们的训练数据集中,我们从三个开源数据集中收集了成对数据:VLFeedback
(Li et al., 2023c)
, RLHF
(Sun et al., 2023)
, 和 RLHF-V
(Yu et al., 2024a)
.
在 VLFeedback 数据集中,每个 (问题,响应) 对在三个不同维度上由 GPT-4V 评分。
对于同一个问题,不同 LMM 生成的响应可以形成多个响应对。
我们随机选择了 20k 对,其中响应之间的平均得分差大于 0.6。
此外,为了确保偏好的多样性,我们随机抽取了 5k 对,其中这两个回复在所有三个维度上的评分相同,作为“平局”训练数据。
在 RLHF 数据集中,每个问题都由人类评估者标注了不同回复之间的偏好关系。
相反,RLHF-V 数据集包含由 LLM 生成的回复,这些回复经过手动细化,以产生改进的回复。
从这两个数据集中,我们收集了 9.4k(RLHF)和 5.7k(RLHF-V)个回复对,每个都标注了人类偏好。
这导致总共 40.1k 个成对数据样本。
为了使 LLaVA-Critic 能够提供有用的详细反馈,除了偏好关系外,我们利用 GPT-4o 生成给定偏好判断背后的原因。
成对数据的训练样本按以下顺序结构化:
其中评估标准来自精心设计的提示模板。
为了使 LLaVA-Critic 能够处理多样化的成对数据排名,我们开发了一组 30 个提示模板(见附录
B.1
)。
每个偏好对都从该集中随机分配一个模板,形成最终的训练数据。
数据统计。
我们的训练数据集共包含 46k 张图像和 113k 个数据样本。
如图
1
所示,我们以跨越多个评估任务和领域的各种指令-回复对来整理我们的训练集。
Setting
Prompt source
Data source
Data size
LLaVA-in-the-Wild
LLaVA, SVIT, LLaVAR, LLaVAMed, ComVint
17.5k
LLaVA-Wilder
SVIT, LLaVAR, LLaVAMed, ComVint, M3IT, PCAEval
16.6k
WildVision-Bench
VLFeedback
14.0k
Pointwise
MMVet
LLaVAR, LLaVAMed, M3IT, PCAEval
9.3k
MMHAL-Bench
LRV-Instruction
7.6k
ImageDC
SVIT-detail
5.3k
RefoMB
VLFeedback
2.5k
Pairwise
30 manually crafted
prompt templates
VLFeedback
20.0k
LLaVA-RLHF
9.4k
VLFeedback (Tie)
5.0k
RLHF-V
5.7k
图 1:
LLaVA-Critic-113k 训练数据集的数据统计。
在逐点设置中,我们根据指令来源对数据集进行分类,并根据与每个评估提示相对应的任务类型选择数据。
请注意,我们所有训练数据都来自公开的指令遵循训练集,并且不会与任何评估基准重叠。
4
LLaVA-评论家
4.1
模型
为了训练 LLaVA-Critic 模型,我们对一个已经具备强大指令遵循能力的预训练 LLM 进行微调。
这至关重要,因为它确保了模型已经具备处理各种现实场景中的视觉任务的能力,并且能够以高品质完成这些任务。
评估能力被视为一种额外的判别能力,与这些场景密切相关。
在训练期间,LLaVA-Critic 将评估提示(包含多模态指令输入、模型响应和可选的参考响应)作为输入。
它被训练为根据评估提示中的标准预测定量的逐点分数或成对排名,并提供对分配的判断的详细理由。
标准交叉熵损失应用于判断和理由。
在我们的实验中,我们从 LLaVA-OneVision(OV) 7B/72B 预训练检查点开始,并在提出的 LLaVA-Critic-113k 数据集上对其进行 1 个 epoch 的微调,以开发 LLaVA-Critic。
我们在训练中应用 2e-6 的学习率和 32 的批次大小,其他超参数设置为
Li 等人 (2024b)
的默认值。
我们还整理了一个包含 53k 个样本(42k 个逐点样本,11k 个成对样本)的子集,这些样本涵盖更少的指令来源和领域。
在此缩减子集上训练的模型被称为 LLaVA-Critic (v0.5)。
4.2
场景 1:LLM 作为评判者
评估复杂任务通常需要人工评判者提供反馈,这可能需要大量人力。
LLaVA-Critic 可以用作 LLM 响应的通用评估器,通过自动化评估过程来降低人力成本。
LLaVA-Critic 在广泛使用的多模态基准测试中始终提供可靠的判断和理由,这些判断和理由与 GPT-4o 或人工评估一致。
这种一致性在实例级评分和模型级排名中都得到体现,如第
5.1
节所示。
具体来说,我们考虑以下评估场景:
(
i
)
视觉聊天
.
此任务涉及通过多模态对话处理日常生活中的视觉任务,需要在对话环境中评估任务完成质量。
例如,LLaVA-Bench
(Liu 等人,2023b)
和 LLaVA-in-the-Wild
(Liu 等人,2023b)
侧重于更简单的场景,而 LLaVA-Wilder
(Li 等人,2024a)
则处理更具挑战性的案例。
(
i
i
)
集成能力
.
真实世界的任务需要整合 LMM 的多种基本能力。
MM-Vet
(Yu 等人,2023b)
提供了一个全面的基准测试,评估了核心视觉语言能力,包括识别、OCR、知识整合、语言生成、空间意识和数学。
多模态 Live-Bench 测试模型通过利用不断更新的新闻和在线论坛来泛化到新颖的、未观察到的知识的能力。
(
i
i
i
)
偏好
.
此任务模拟了现实世界中的多模态交互,其中模型需要使其行为与人类偏好保持一致。
WildVision-Bench
(Lu 等人,2024)
是一个典型例子,它复制了在线平台 WildVision-Arena (WV-Arena) 中的场景,以评估基于偏好的交互。
(
i
v
)
详细描述
.
此任务评估模型提供图像和视频的全面详细描述的能力。
图像详细字幕
(Li 等人,2024a)
评估图像中的详细描述,而视频详细字幕
(Zhang 等人,2024c)
将这些能力从图像扩展到视频环境。
(
v
)
幻觉
: 此任务侧重于模型根据给定上下文提供有根据的响应的能力,确保其避免生成不准确或虚构的信息,例如 MMHal-Bench
(Sun 等人,2023)
。
4.3
场景 2:偏好学习
利用一个通用的评估器作为批评者来生成强化学习的奖励信号是一个很有前景的研究方向。
在这项工作中,我们使用 LLaVA-Critic 为不同的任务生成 AI 生成的反馈数据集,从而通过偏好对齐来提高监督微调的 LMM 的性能。
值得注意的是,我们的批评者生成的奖励信号可以用于任何偏好学习算法,包括 RLHF 和 DPO。
为了快速评估奖励数据的有效性,我们重点关注 LLaVA-Critic 如何融入迭代 DPO 训练过程。
•
第 1 步:响应生成
.
迭代 DPO 过程从预训练的 LMM
π
0
作为初始检查点和一组多模态指令
{
(
𝒙
k
,
𝒗
k
)
}
k
=
1
N
开始,其中每个
𝒙
k
是一个问题,而
𝒗
k
是相应的图像。
对于每个问题-图像对
(
𝒙
,
𝒗
)
,预训练的 LMM
π
0
会随机生成
K
个响应
{
y
1
,
y
2
,
…
,
y
K
}
,这些响应独立地从其分布中采样。
•
第 2 步:评分
.
为了减轻 LLaVA-Critic 的偏好在顺序方面的方差,我们从这些响应中形成所有可能的排序对,从而得到
K
×
(
K
−
1
)
对。
对于每个响应对
(
y
i
,
y
j
)
,我们使用评估提示应用 LLaVA-Critic 来生成一个相对分数
a
i
j
,它根据
y
i
对
y
j
的分数进行归一化。
•
第 3 步:奖励偏好
.
每个响应
y
i
的整体奖励分数
r
i
是通过聚合这些偏好分数来计算的:
r
i
=
∑
k
≠
i
a
k
i
−
∑
l
≠
i
a
i
l
此计算有效地衡量了
y
i
与所有其他响应相比,其好坏程度。
然后,我们选择具有最高和最低奖励分数的响应作为最佳和最差响应,分别表示为
y
+
和
y
−
。
这些构成了成对的反馈数据
(
y
+
,
y
−
)
,用于 DPO 训练以增强 LMM 与 LLaVA-Critic 的偏好的对齐。
迭代改进。
在每一轮 DPO 训练之后,更新后的 LMM 将成为新的起始检查点。
然后,该过程以迭代方式重复进行另外
M
−
1
轮,使用 LLaVA-Critic 根据模型自身生成的响应逐步提高模型的性能。
5
实验结果
5.1
LMM 作为评判者
为了全面评估 LLaVA-Critic 在不同场景中评估 LMM 响应的能力,我们考虑了两个主要的实验设置: (1)
域内判断
:我们在 LLaVA-Critic-113k 训练数据集中包含的评估任务/提示上衡量 LLaVA-Critic 与 GPT-4o 或人类评估者的一致性; 以及 (2)
域外判断
:我们将 LLaVA-Critic 应用于训练期间未见过的评估任务和提示。
对于第二种设置,我们使用 MLLM-as-a-Judge
(Chen 等人,2024)
基准来评估 LLaVA-Critic 与人类评估者在通用场景中的对齐程度。
域内逐点评分
为了评估 LLaVA-Critic 与 GPT-4o
(OpenAI,2024b)
在不同评估场景中逐点评分的一致性,如第
4.2
节所述,我们选择了 7 个流行的多模态基准,并从 13 个常用的 LMM 中收集了候选响应,以及它们的 GPT-4o 评估结果,总共产生了 14174 个示例(见附录
B.2
中的详细信息)。
然后,LLaVA-Critic 的任务是为这些样本提供判断。
我们报告皮尔逊相关系数和肯德尔的 Tau,分别用于衡量与 GPT-4o 在实例级评分和模型级排名方面的一致程度。
我们基于三种不同的基线模型进行实验:LLaVA-NeXT (LLaMA-8B)
(Liu 等人,2024b; Li 等人,2024a)
,LLaVA-OneVision-7B 和 LLaVA-OneVision-72B。
实验结果如表
2
所示。
在所有模型和基准中,LLaVA-Critic 变体在皮尔逊-r 和肯德尔的 Tau 方面均显着提高了其相应的基线模型。
(
i
)
数据扩展
。
通过比较 v0.5 和使用完整数据训练的 LLaVA-Critic-7B 之间的性能,得出结论,在训练数据中需要更大的规模和更多样的指令。
(
i
i
)
模型扩展
。
在皮尔逊相关系数方面,LLaVA-Critic-72B 实现了最佳性能,平均得分 0.754,显著优于 LLaVA-OV-72B 基线 (0.634)。
同样,在肯德尔秩相关系数方面,LLaVA-Critic-72B 实现了最高的平均得分 0.933,再次优于 LLaVA-OV-72B 基线 (0.802)。
这表明 LLaVA-Critic-72B 已经拥有与 GPT-4o 相当一致的逐点评分能力。
此外,值得注意的是,即使模型参数显著减少,LLaVA-Critic-7B 仍然表现出非常强的逐点评分能力。
它的皮尔逊相关系数为 0.732,肯德尔秩相关系数为 0.911,与 LLaVA-Critic-72B 相比,性能没有显著下降。
这为在资源受限的环境中部署和利用 LLaVA-Critic 提供了优势。
LMM Evaluator
Pearson-r (
↑
)
ImageDC
MMVet
WildVision
LLaVA-B
LLaVA-W
L-Wilder
MMHal
Avg.
LLaVA-NeXT (LLaMA-8B)
0.262
0.317
0.147
0.211
0.345
0.156
0.472
0.273
LLaVA-Critic (LLaVA-NeXT)
0.673
0.706
0.580
0.529
0.820
0.936
0.748
0.713
LLaVA-OV-7B
0.056
0.349
0.251
0.335
0.533
0.592
0.433
0.364
LLaVA-Critic-7B (v0.5)
0.737
0.718
0.571
0.494
0.789
0.932
0.746
0.712
LLaVA-Critic-7B
0.735
0.733
0.616
0.510
0.843
0.940
0.748
0.732
LLaVA-OV-72B
0.718
0.680
0.446
0.436
0.716
0.824
0.620
0.634
LLaVA-Critic-72B
0.802
0.723
0.705
0.524
0.782
0.951
0.790
0.754
LMM Evaluator
Kendall’s Tau (
↑
)
ImageDC
MMVet
WildVision
LLaVA-B
LLaVA-W
L-Wilder
MMHal
Avg.
LLaVA-NeXT (LLaMA-8B)
0.452
0.436
0.615
0.487
0.503
0.231
0.590
0.473
LLaVA-Critic (LLaVA-NEXT)
0.787
0.974
0.846
0.839
0.923
0.974
0.923
0.895
LLaVA-OV-7B
0.539
0.154
0.795
0.667
0.641
0.839
0.590
0.603
LLaVA-Critic-7B (v0.5)
0.813
0.897
0.872
0.846
0.949
0.974
0.923
0.896
LLaVA-Critic-7B
0.897
0.949
0.897
0.839
0.923
0.974
0.897
0.911
LLaVA-OV-72B
0.872
0.795
0.821
0.667
0.769
0.949
0.744
0.802
LLaVA-Critic-72B
0.949
0.949
0.949
0.821
0.923
0.994
0.949
0.933
表 2:
域内逐点评分的比较。
LLaVA-Critic 在 7 个多模态评估基准上始终优于其他基线方法。
图 2:
(顶部):
跨 4 个基准的评估分数的总体分布。
(底部):
每个响应模型在每个基准上的计算平均评估分数。
每个颜色代表不同的 LMM 评估器。
利用高质量的评论训练数据,LLaVA-Critic 在提供平衡的评估分数和准确排名响应 LMM 方面与 GPT-4o 密切一致。
图
2
提供了 LLaVA-Critic 与其他 LMM 评估器之间的定性比较。
虽然 LLaVA-OneVision 经常分配固定分数(例如,在 WildVision-Bench 上为“平局”或在 MMHal-Bench 上为“6”),但 LLaVA-Critic 产生更多样化和平衡的分数,与 GPT-4o 密切一致,从而导致对响应模型的一致排名。
值得注意的是,即使没有在评论数据上进行训练,LLaVA-OneVision-72B 在四个多模态基准测试中展示了与 GPT-4o 部分一致的模型排名。
域内成对排名
为了评估 LLaVA-Critic 和人类评估者在成对排名方面的 一致性,我们使用来自 WildVision Arena
(Lu 等人,2024)
的战斗数据,其中包含 11k 个关于 LMM 响应对的人工标注的偏好关系。
每个关系都包含一个问题-图像对和两个由不同模型生成的响应,以及一个人工标注的偏好(包括平局)。
从该数据集,我们随机抽取 2k 个响应对,并将它们分配给来自第
3.2
节中提到的成对排名提示模板集的评估提示,从而创建域内评估数据集。
我们报告平均准确率(有无平局),以评估在实例级别与人类评估者的 一致性。
对于模型级别的 一致性,我们计算每个响应 LMM 的 Elo 评级,并报告 Kendall 的 Tau 来衡量与人类偏好的总体排名相关性。
Model
Accuracy w. Tie
↑
Accuracy w.o. Tie
↑
Kendall’s Tau
↑
GPT-4o
0.617
0.734
0.819
GPT-4V
0.620
0.733
0.787
LLaVA-NeXT (LLaMA-8B)
0.473
0.569
0.605
LLaVA-OV-7B
0.531
0.640
0.715
LLaVA-OV-72B
0.594
0.708
0.763
LLaVA-Critic-7B (v0.5)
0.580
0.692
0.755
LLaVA-Critic(LLaVA-NeXT)
0.582
0.686
0.755
LLaVA-Critic-7B
0.596
0.722
0.763
LLaVA-Critic-72B
0.605
0.736
0.779
表 3:
域内成对排名的比较。
就与人类评估者的 一致性而言,LLaVA-Critic 与 GPT-4V 相当。
实验结果见表
3
。
虽然 LLaVA 模型表现出最初的成对排名能力,但与 GPT-4V/4o 相比,存在明显的性能差距。
在使用评论数据训练后,LLaVA-Critic 取得了显著的改进。
具体而言,LLaVA-Critic-72B 在无平局的成对比较中实现了 73.6% 的平均准确率,优于 GPT-4o 和 GPT-4V。
对于有平局的成对比较(含平局准确率)和模型级别的排名(Kendall 的 Tau),LLaVA-Critic-72B 与 GPT-4V/4o 之间仅存在微小的差距,准确率分别为 60.5% 和 0.779。
值得注意的是,尽管参数数量大幅减少,LLaVA-Critic-7B 在有平局的成对排名中仍实现了 59.6% 的平均准确率,在无平局的成对排名中实现了 72.2% 的准确率,以及 0.763 的 Kendall 的 Tau 值。
这些结果强调了 LLaVA-Critic 与人类评估者在成对排名 LMM 响应方面的强一致性。
MLLM 作为法官
MLLM-as-a-Judge
(陈等,2024)
是一个综合基准,用于评估模型评估与人类评估之间的一致程度。
它收集了来自 14 个多模态基准和 6 个 LMM 响应模型的约 17k 个图像-指令-响应三元组。
然后雇佣人类标注者在评分、成对比较和批量排序设置下评估模型响应,分别产生了 7756、5719、1469 个示例。
在我们的实验中,我们评估了 LLaVA-Critic 在(点态)评分和配对比较设置中的表现,以评估它与人类评估者的一般一致性。
我们报告了评分的平均皮尔逊相关系数和配对比较的平均准确率,遵循原始基准中使用的指标。
我们将 LLaVA-Critic 与商业模型(GPT-4V/4o、Gemini-Pro
(团队等,2023)
)、开源 LMM 以及 Prometheus-Vision
(李等,2024)
进行比较,后者在包含 15k 个 GPT 生成的评分标准和 150k 个 GPT-4V 反馈数据的精选 LMM-as-a-judge 数据集上训练了一个 LLaVA 模型。
如表
4
所示,LLaVA-Critic-7B 在所有设置中,除了 GPT-4V/4o 之外,都显著超过了所有基线。
基于更强大的基础模型,LLaVA-Critic-72B 在点态评分中,将与人类标注者的皮尔逊相似性从 0.314 提高到 0.393。
对于配对比较,它在有和没有平局的情况下分别获得了 57.8% 和 71.5% 的准确率,达到了与 GPT-4V/4o 相当的与人类评估者的一致程度。
我们还比较了 LLaVA-Critic 的不同变体,并观察到更强大的基础模型和更大规模的训练数据都带来了性能提升,这与之前的发现一致。
这再次突出了模型和数据扩展在构建有效且通用的开源 LMM 评估器中的关键作用。
更全面的结果见附录
C.1
。
Model
Score
↑
Pair w. Tie
↑
Pair w.o. Tie
↑
GPT-4V*
0.490
0.636
0.773
GPT-4o
†
0.439
0.577
0.736
GPT-4V
†
0.424
0.538
0.717
Gemini-pro*
0.304
0.509
0.615
LLaVA-v1.5-7B
0.158
0.439
0.576
LLaVA-NeXT (LLaMA-8B)
0.198
0.461
0.586
LlaVA-OV-7B
0.151
0.426
0.550
LlaVA-OV-72B
0.287
0.513
0.701
Prometheus-Vision (LLaVA-v1.5-7B)
0.213
–
–
LLaVA-Critic (LLaVA-v1.5-7B)
0.228
0.528
0.656
LLaVA-Critic (LLaVA-NeXT)
0.272
0.547
0.677
LLaVA-Critic-7B (v0.5)
0.312
0.546
0.675
LLaVA-Critic-7B
0.314
0.556
0.689
LLaVA-Critic-72B
0.393
0.578
0.715
表 4:
MLLM-as-a-Judge
(陈等,2024)
上的结果。
*: 原文
(Chen et al., 2024)
中报告的结果;
†
: 基于 GPT-4V/4o 代码库对 GPT-4V/4o 进行评估的结果。