摘要
对比语言图像预训练(CLIP)擅长跨领域和模态抽象开放世界表示,已成为各种视觉和多模态任务的基础。
然而,最近的研究表明CLIP存在严重的视觉缺陷,例如难以区分方向、数量、颜色、结构等
。
这些视觉缺陷也限制了基于 CLIP 构建的多模态大语言模型 (MLLM) 的感知能力。
主要原因可能是用于训练 CLIP 的图像文本对本身就有偏见,因为缺乏文本的独特性和图像的多样性。
在这项工作中,我们提出了一种简单的 CLIP 模型后训练方法,该方法通过自监督扩散过程在很大程度上克服了其视觉缺陷。
我们引入
DIVA
,它使用
DI
融合模型作为CLIP的
V
isual
A
助手。
具体来说,
DIVA
利用文本到图像扩散模型的生成反馈来优化 CLIP 表示,仅使用图像(没有相应的文本)。
我们证明,
DIVA
提高了 CLIP 在具有挑战性的 MMVP-VLM 基准上的性能,该基准在很大程度上评估细粒度的视觉能力 (
e
.
g
., 3-7% ↑),并增强了 MLLM 和视觉模型在多模态理解和分割任务上的性能。
对 29 个图像分类和检索基准的广泛评估证实,我们的框架保留了 CLIP 强大的零样本功能。
该代码可从 https://github.com/baaivision/DIVA 获取。
1
简介
对比语言图像预训练(CLIP)
(Radford等人,2021b)
已广泛应用于各种多模态理解和生成任务,包括开放域图像分类
(Sun等人, 2024d; 张等人, 2022; 朱等人, 2023)
, 文本到图像检索
(罗等人, 2023; Baldrati 等人, 2022; Sain 等人, 2023)
、视觉基础
(Wang 等人,2022;Yu 等人,2023;Wang 等人,2024b;a)
,以及文本到图像生成
(Frans 等人,2022; Bar-Tal 等人,2022;Rombach 等人,2022a;Ramesh 等人,2022;
。
这种广泛的应用得益于 CLIP 从大规模数据中学习到的出色的视觉表示能力。
因此,增强 CLIP 的代表性和能力对于推进下游任务至关重要。
自从 CLIP
(Radford 等人, 2021b)
提出以来,近年来出现了大量关于 CLIP 模型的后续研究。
这些研究利用了训练前的训练技术
(Sun 等人, 2023; 2024b; Fang 等人, 2023; Xu 等人, 2023a; Zhai 等人, 2023; Shi 等人, 2024)
和参数
(Wei 等人, 2023; Zhang 等人, 2024)
CLIP 模型,实现性能提升并释放新能力。
然而,这些方法仍然受到不可避免的限制,因为它们严重依赖图像-文本数据对,并且无法处理纯图像数据。
图1:
左:
现有的 CLIP 模型大多无法区分视觉细节。
通过我们的
DIVA
增强视觉能力后,CLIP对视觉细节的敏感度有了很大的提高。
右:
我们提出的
DIVA
持续提升各种CLIP模型的性能
(Radford等人,2021b;Fang等人,2023;Xu等人,2023a;Zhai等人,2023)
MMVP-VLM 基准,评估视觉语言模型的视觉能力。
正如最近的工作
(Kim 等人,2023;Zeng 等人,2021;Zhang 等人,2024;Tong 等人,2024b;a)
所指出的,尽管 CLIP 具有出色的零样本性能,但仍存在以下问题:由于对比学习范式和训练中使用的噪声图像文本对而导致某些感知理解的限制。
这些限制包括无法准确理解长文本和感知相似图像中的细粒度差异。
虽然一些研究试图解决文本理解问题
(Zhang等人,2024)
,但改善 CLIP 细粒度视觉感知的研究仍未得到充分探索。
感知视觉细节的能力对于基础模型至关重要,CLIP 缺乏这种能力直接影响视觉和使用 CLIP 作为视觉编码器的多模态模型的性能
(Tong 等人,2024b; a)
.
因此,在这项工作中,我们重点解决 CLIP 无法通过自我监督学习 (SSL) 范式区分细粒度视觉细节的问题。
基于文本到图像的扩散模型生成具有更多细节的逼真图像,我们探索利用扩散模型的生成反馈来优化 CLIP 表示。
通过使用 CLIP 密集重述的视觉特征来调节扩散模型,并将重建损失应用于 CLIP 优化,我们利用
DI
扩散模型作为
V
isual
A
CLIP 的助手,因此我们的方法的名称为
DIVA
。
我们的结果表明,
DIVA
极大地增强了 CLIP 在衡量 V-L 模型视觉能力的 MMVP-VLM 基准上的性能,并改进了多模态大语言模型 (MLLM) 和视觉模型在多模态和视觉理解任务上的性能。
此外,
DIVA
在29个图像分类和检索基准上保持了CLIP出色的零样本性能。
我们的主要贡献可概括如下:
-
•
我们专注于克服 CLIP 在感知细粒度细节方面的视觉缺陷,提出了第一项利用文本到图像扩散模型的生成反馈来优化 CLIP 模型的判别表示的潜力的工作。
-
•
我们提出了一个简单的自监督框架
DIVA
用于 CLIP 的表示优化。
与我们的视觉密集回顾方案相结合,
DIVA
使用来自 CLIP 的密集视觉特征来调节扩散模型,并结合图像重建损失进行优化。
-
•
我们的
DIVA
极大地提升了CLIP的视觉感知能力,并提高了其在MMVP-VLM基准上的性能,进一步增强了MLLM和视觉模型在多模态和视觉理解任务上的性能。
同时,我们在 29 个图像分类和检索基准上的结果表明,
DIVA
保持了 CLIP 原有的出色的零样本性能。
2
相关工作
CLIP 模型和 MLLM。
CLIP
(Radford 等人, 2021b)
的引入显着推进了多模态学习。
自推出以来,出现了一系列CLIP模型
(Sun等人,2023;Fang等人,2023;Xu等人,2023a;Zhai等人,2023)
,增强了性能并解锁了新功能通过改进的预训练技术和模型架构。
在此基础上,CLIP作为基础模型被广泛采用,成为图像分割等各种应用的骨干
(Li 等人, 2022a; Xu 等人, 2022; Shan 等人, 2024; Xu 等人,2023c;Liang等人,2023;Zhou等人,2023)
,物体检测
(Gu等人,2021;Li等人,2022b;Subramanian等人,2022)
和视频理解
(Bose 等人,2023;Lin 等人,2022;Castro & Heilbron,2022;Xu 等人,2021;Rasheed 等人,2023;Tang 等人,2024)
。
与传统方法相比,它能够协调语言和视觉,从而在这些任务上取得优异的结果。
此外,CLIP 还推动了 MLLM 的发展
(Liu 等人,2024b;a;Sun 等人,2024c;a)
。
将强大的视觉理解与先进的大语言模型相结合,可以促进视觉和语言之间更复杂的交互。
最近的工作强调了 CLIP 模型和使用 CLIP 作为视觉编码器的 MLLM 中固有的视觉缺陷
(Tong 等人,2024b; a)
。
为了解决这个问题,一些研究结合了多个视觉编码器来实现更精确和更全面的视觉感知
(Kar等人,2024;Jiang等人,2023;Tong等人,2024b)
。
然而,这种方法增加了计算成本和内存使用量。
目前还没有研究直接增强 CLIP 的视觉感知能力以更好地服务 MLLM。
因此,我们工作的主要重点是从根本上克服 CLIP 的视觉感知缺点,直接使以 CLIP 作为骨干的视觉模型和多模态 MLLM 受益。
表征学习的扩散模型。
扩散模型
(Ho 等人, 2020; Song 等人, 2020)
在图像生成等各种生成任务中取得了显着进展
(Rombach 等人, 2022b; Saharia 等人, 2022 ; Betker 等人, 2023; Cheng 等人, 2024)
, 视频生成
(Singer 等人, 2022; Blattmann 等人, 2023; Junhao 等人, 2023; Ho 等人, 2022)
,编辑
(Meng 等人, 2021; Hu 等人, 2024; Mou 等人, 2023)
等。除了上述研究之外,也有很多工作专注于采用扩散模型表征学习。
一些工作利用预训练扩散模型的中间激活来完成不同的下游任务,包括分类
(Xiang等人,2023)
、语义分割
(Baranchuk等人,2021)
、全景分割
(Xu 等人, 2023b)
、深度估计
(Zhao 等人, 2023)
等。其他作品
(Hudson 等人, 2024; Pan 等人, 2023)
训练他们自己的扩散模型以及精心设计的模块,以进一步提高表示能力。
此外,Diffusion-TTA
(Prabhudesai 等人,2023)
旨在使用扩散模型的反馈使预训练的视觉编码器适应测试集中的样本。
此外,一些方法
(Guo 等人,2024;Trabucco 等人,2023;Tian 等人,2024;Azizi 等人,2023)
利用扩散模型生成合成数据,然后采用该数据来增强相应模型的表示能力。
相比之下,在我们的工作中,我们主要关注通过直接利用扩散模型的生成反馈来探索增强 CLIP 模型原始判别性表示的潜力。
此外,我们的目标是利用扩散模型来摆脱图像-文本配对数据的限制,构建一个自我监督的框架来提高 CLIP 的视觉感知能力。
3
通过扩散反馈增强 CLIP 的表示
在本节中,我们将介绍
DIVA
,这是一个通过预先训练的条件扩散模型来增强 CLIP 视觉感知能力的有效框架。
我们首先在第
3.1.1
节和第
3.1.2
节分别讨论CLIP在感知细节方面的视觉缺陷以及生成扩散模型作为预备知识。
然后在第
3.2
节阐述
DIVA
的整体架构,随后在第
3.3
节介绍我们精心设计的视觉密集重述策略,以更好地发挥
DIVA
的潜力。
3.1
预赛
3.1.1
CLIP的视觉缺陷
得益于通过海量数据预训练学到的优秀表征,CLIP
(Radford等人, 2021b)
展现出出色的泛化能力,在V-L理解领域得到广泛应用。
然而,CLIP 也并非没有缺陷。
正如研究
(Tong等人,2024b)
中所强调的那样,CLIP很难区分对于人类观察者来说明显不同的两幅图像之间的细节差异。
这种不足主要源于两个方面:1)
训练范式
:CLIP最初的对比学习策略旨在最小化视觉类标记和文本语义的正对之间的距离,并最大化负对之间的距离,导致主要关注高层语义信息而忽视方向、数量、颜色和结构等视觉细节的视觉感知偏差。
因此,CLIP 有时会将视觉上不同的图像编码为相似的嵌入,从而很难区分这些图像的细微变化。
2)
数据格式
:用于训练CLIP的图文对中的文本有长度限制。
正如
(张等人,2024)
指出,虽然词符的长度被限制在77,但CLIP的实际有效文本长度不到20。
因此,这些图文对中的文本数据本质上缺乏对相应正样本图像中视觉细节的描述。
训练数据的这一根本限制也导致 CLIP 无法充分感知视觉细节信息。
3.1.2
生成扩散模型
扩散模型通过逆转逐渐向图像添加噪声的过程来学习对概率分布进行建模。
给定从基础概率分布
p
(
x
)
中提取的图像样本
x
0
,前向扩散过程定义马尔可夫链以逐渐向原始样本添加随机高斯噪声
ϵ
𝐭
∈
𝒩
(
𝟎
,
𝐈
)
𝐱
𝟎
:
这里,
T
表示扩散步骤的数量,
β
t
∈
(
0
,
1
)
是预定义的时间相关方差表。
当
T
变得足够大时,
𝐱
𝐓
接近
𝒩
(
𝟎
,
𝐈
)
。
利用高斯分布的加性性质,可以将转移方程重新表述如下:
其中
α
t
=
1
−
β
t
和
α
¯
t
=
∏
i
=
1
t
α
i
。
在此基础上,可以通过反转前向扩散过程,由随机噪声
𝐱
𝐓
∼
𝒩
(
𝟎
,
𝐈
)
迭代生成图像样本
x
0
:
ϵ
ϕ
是经过训练的去噪神经网络,用于预测前向扩散过程中的
ϵ
,
σ
t
是后验噪声方差。
扩散模型
ϵ
ϕ
的常用训练目标是:
此外,通过将条件
𝐜
合并到
ϵ
ϕ
中,可以轻松地将扩散模型扩展到条件生成,其中
𝐜
可以是类标签、文本提示或参考图像。
因此,训练目标应修改为:
3.2
DIVA
整体结构
图2:
我们 DIVA 的整体架构。
给定图像
x
0
,CLIP模型
θ
将视觉特征编码为条件
c
的主要部分,然后生成扩散模型
ϕ
以噪声图像
x
t
和条件
c
作为输入来预测添加的噪声
ϵ
。
我们通过生成反馈最大化图像似然度和扩散损失来优化 CLIP 的表示。
如图
2
所示,
DIVA
主要由两部分组成:一个在视觉感知能力方面得到增强的CLIP模型,以及一个提供生成性反馈的预训练文本到图像扩散模型。
以原始图像作为输入,CLIP模型编码相应的视觉特征,这些特征将与扩散模型文本编码器中的空文本嵌入(
i
.
e
., [BOS] & [EOS])结合起来,作为扩散的条件。
给定添加了噪声的图像,扩散模型尝试在上述条件下预测从上一步到当前步骤添加的噪声。
这个过程需要重复N次,因为对于每张图像,我们将从扩散模型的总步数(
e
.
g
., 0
∼
1000步)中随机选择N个状态(
i
.
e
.,两个)进行优化。
相应的损失函数可以用公式
5
表示。
保持除CLIP视觉编码器之外所有部分的权重不变,训练目标只是最小化重构损失(
i
.
e
., 生成引导)。
这样,通过限制扩散模型更准确地预测添加的噪声,CLIP原始的语义丰富的判别表示将通过扩散反馈逐渐优化为具有更多视觉细节的表示。
基于此,第
4.4
节的结果表明,我们的
DIVA
并没有显著损害原始CLIP模型的零样本性能。
特定增强过程的伪代码可在
附录
中的算法
1
中找到。
3.3
Diffusion的条件设计
视觉密集回顾计划。
在我们的
DIVA
中,扩散模型的条件设计至关重要,因为它设定了增强CLIP视觉能力的上限。
我们引入一种简单而有效的策略,称为视觉密集回顾。
与用自然语言对图像标题进行详细的重新描述不同,我们的方法通过将本地补丁标记的特征以及词符类的特征合并到条件中,在视觉丰富度上执行重新描述。
当只有词符类存在时,CLIP的视觉特征主要包含强语义信息,不足以重建原始图像。
因此,由于缺乏足够的信息,重建任务变得具有挑战性,并且 CLIP 无法学习显着增强的表示。
通过融入局部补丁特征,条件的辅助功能显着增强,使得生成反馈能够有效提高CLIP的视觉感知能力。
我们在第
4.5
节进行了消融研究,以证明视觉密集重述的有效性。
视觉回顾密度。
尽管视觉密集重述方案看起来很简单,但重述的密度至关重要。
如果密度过高(
i
.
e
., 引入太多局部符元),条件信息的丰富程度接近最大值,大大降低了重构任务的难度。
这导致CLIP的表示只需要最小的优化就能轻松完成重构,限制了CLIP优化能力的上限。
相反,如果重述密度过低(
i
.
e
., 只保留类别符元或引入少量局部符元),CLIP的优化过程将难以应对高难度的重构,无法充分学习预期的详细视觉表示。
第
4.5
节证实了这一点。
具体来说,确保视觉类别符元始终存在于条件中,我们以大约15%和30%的概率为分辨率为224和336的OpenAI CLIP
(Radford et al., 2021b)
引入随机选择的局部符元特征。
对于 SigLIP ViT-SO-14
(Zhai et al., 2023)
,在 224 和 384 像素大小的图像中,我们分别结合了通过 1D 平均池化获得的局部窗口大小为 6 和 10 的局部符元特征。
除了将 50% 随机选择的补丁符元引入 DFN ViT-H-14/378 的条件外,对于其余基线
(Fang et al., 2023; Xu et al., 2023a)
,我们在条件设计中包含所有局部符元特征。
除了 DFN ViT-H-14/224 和 SigLIP ViT-SO-14/224&384
(Zhai et al., 2023)
只使用视觉类别符元外,所有其他模型在推理过程中都结合了与训练阶段条件一致的局部特征,并将它们与类别符元结合起来,以充分利用增强型 CLIP 捕获的详细表示。
4
实验结果
为了评估我们的
DIVA
的有效性并证明其增强CLIP表示的潜力,对多模态理解和视觉感知任务进行了全面的实验,这将在下面详细阐述。
4.1
实现细节
DIVA
在 8 个 NVIDIA-A100 80GB GPU 上进行训练,全局批量大小为 640。
我们采用随机梯度下降(SGD)优化器,学习率为 1e-4,动量为 0.9,通过生成反馈来细化 CLIP 模型的表示。
我们仅使用相对高质量的Conceptual-3M数据集
(Sharma等人,2018)
优化CLIP模型4600步(
i
。
e
..,近 1 个 epoch),这已经可以以有效的训练方式提高 CLIP 的性能。
对于所有实验,我们调整判别式 CLIP 视觉编码器的参数,并在训练过程中保持预训练扩散模型的参数冻结。
4.2
细粒度视觉感知评估
表格1:
基于 CLIP 的模型在 MMVP-VLM 基准的各种视觉模式上的性能。
我们的框架极大地克服了 CLIP 原有在感知视觉细节方面的缺点。
视觉模式的符号如
(Tong 等人, 2024b)
是继承的: :方位和方向, :特定特征的存在, :状态和条件, :数量和计数, :位置和关系上下文, :颜色和外观,:结构和物理特征,:文本,:观点和视角。
Method
|
Ours
|
Image Size
|
Params (M)
|
|
|
|
|
|
|
|
|
|
Average
|
OpenAI ViT-L-14
|
|
224
2
|
427.6
|
13.3
|
13.3
|
20.0
|
20.0
|
13.3
|
53.3
|
20.0
|
6.7
|
13.3
|
19.3
|
OpenAI ViT-L-14
|
✔
|
224
2
|
427.6
|
13.3
|
20.0
|
40.0
|
6.7
|
20.0
|
53.3
|
46.7
|
20.0
|
13.3
|
25.9
(+6.6)
|
OpenAI ViT-L-14
|
|
336
2
|
427.9
|
0.0
|
20.0
|
40.0
|
20.0
|
6.7
|
20.0
|
33.3
|
6.7
|
33.3
|
20.0
|
OpenAI ViT-L-14
|
✔
|
336
2
|
427.9
|
26.7
|
20.0
|
33.3
|
13.3
|
13.3
|
46.7
|
26.7
|
6.7
|
40.0
|
25.2
(+5.2)
|
MetaCLIP ViT-L-14
|
|
224
2
|
427.6
|
13.3
|
6.7
|
66.7
|
6.7
|
33.3
|
46.7
|
20.0
|
6.7
|
13.3
|
23.7
|
MetaCLIP ViT-L-14
|
✔
|
224
2
|
427.6
|
6.7
|
6.7
|
60.0
|
0.0
|
26.7
|
66.7
|
20.0
|
20.0
|
40.0
|
27.4
(+3.7)
|
MetaCLIP ViT-H-14
|
|
224
2
|
986.1
|
6.7
|
13.3
|
60.0
|
13.3
|
6.7
|
53.3
|
26.7
|
13.3
|
33.3
|
25.2
|
MetaCLIP ViT-H-14
|
✔
|
224
2
|
986.1
|
13.3
|
20.0
|
53.3
|
33.3
|
13.3
|
66.7
|
33.3
|
13.3
|
40.0
|
31.9
(+6.7)
|
SigLIP ViT-SO-14
|
|
224
2
|
877.4
|
26.7
|
20.0
|
53.3
|
40.0
|
20.0
|
66.7
|
40.0
|
20.0
|
53.3
|
37.8
|
SigLIP ViT-SO-14
|
✔
|
224
2
|
877.4
|
13.3
|
26.7
|
60.0
|
46.7
|
13.3
|
73.3
|
53.3
|
26.7
|
53.3
|
40.7
(+2.9)
|
SigLIP ViT-SO-14
|
|
384
2
|
878.0
|
20.0
|
26.7
|
60.0
|
33.3
|
13.3
|
66.7
|
33.3
|
26.7
|
53.3
|
37.0
|
SigLIP ViT-SO-14
|
✔
|
384
2
|
878.0
|
26.7
|
33.3
|
53.3
|
26.7
|
13.3
|
80.0
|
40.0
|
26.7
|
46.7
|
38.5
(+1.5)
|
DFN ViT-H-14
|
|
224
2
|
986.1
|
20.0
|
26.7
|
73.3
|
26.7
|
26.7
|
66.7
|
46.7
|
13.3
|
53.3
|
39.3
|
DFN ViT-H-14
|
✔
|
224
2
|
986.1
|
20.0
|
20.0
|
80.0
|
40.0
|
46.7
|
66.7
|
46.7
|
20.0
|
53.3
|
43.7
(+4.4)
|
DFN ViT-H-14
|
|
378
2
|
986.7
|
13.3
|
20.0
|
53.3
|
33.3
|
26.7
|
66.7
|
40.0
|
20.0
|
40.0
|
34.8
|
DFN ViT-H-14
|
✔
|
378
2
|
986.7
|
26.7
|
26.7
|
53.3
|
33.3
|
26.7
|
73.3
|
26.7
|
13.3
|
60.0
|
37.8
(+3.0)
|
为了验证我们的
DIVA
能够有效缓解CLIP模型固有的视觉能力缺陷,我们首先对各种现有的CLIP模型
进行实验(Radford等人,2021b;Fang等人,2023;Xu)等人,2023a;翟等人,2023)
。
尽管这些 CLIP 模型的图像分辨率、模型大小、训练数据和方法存在差异,但我们的方法始终增强了它们在 MMVP-VLM 基准上的性能。
如表
1
所示,我们的框架在 OpenAI ViT-L-14 和 MetaCLIP ViT-H-14 上实现了最佳性能提升(
i
.
e
., ↑4-7%),甚至在当前性能最佳的 DFN ViT-H-14 上,我们的框架也实现了近 3-5% 的性能提升。
这充分说明
DIVA
对于增强CLIP模型的细粒度视觉感知能力既通用又有效。
值得注意的是,通过不受图像文本约束的自监督框架提供的生成指导,CLIP 模型对几乎所有视觉模式的感知能力都有可能得到增强。
图3:
MMVP-VLM 和 MMVP 基准的定性分析。
左
:OpenAI ViT-L-14 CLIP在合并
DIVA
前后的预测结果。
右
:使用我们的
DIVA
前后LLaVA-1.5-7B的预测结果。
两个基准测试的结果表明,我们的框架可以极大地增强 CLIP 模型的细粒度视觉感知能力,并有效缓解幻觉问题。
4.3
骨干增强性能评估
接下来,在我们的
DIVA
的帮助下,我们进一步评估增强的 CLIP 主干网为多模态理解和视觉感知任务带来的性能提升。
表2:
通过我们增强的 MLLM CLIP 视觉主干(
i
.
e
.、LLaVA-1.5-7B 和 LLaVA-1.5-13B)在各种 V-L 理解任务上实现了性能提升。
通过使用生成反馈完善 CLIP 的表示,我们的方法减轻了 MLLM 中的视觉缺陷(
i
.
e
.、LLaVA
1.5
)并改进了原始图像指令遵循能力。
Method
|
Ours
|
LLM
|
Image
Size
|
MMVP
|
POPE
|
MME
|
MMBench
|
LLaVA-Wild
|
rand
|
pop
|
adv
|
en
|
cn
|
LLaVA
1.5
|
|
Vicuna-7B
|
336
2
|
24.7
|
87.3
|
86.1
|
84.2
|
1510.7
|
64.3
|
58.3
|
65.4
|
LLaVA
1.5
|
✔
|
Vicuna-7B
|
336
2
|
31.3
|
87.9
|
87.0
|
84.6
|
1500.6
|
66.4
|
60.6
|
66.3
|
LLaVA
1.5
|
|
Vicuna-13B
|
336
2
|
30.7
|
87.1
|
86.2
|
84.5
|
1531.3
|
67.7
|
63.6
|
72.5
|
LLaVA
1.5
|
✔
|
Vicuna-13B
|
336
2
|
35.3
|
88.1
|
87.4
|
84.8
|
1522.9
|
69.4
|
63.1
|
73.5
|
MLLM 的增强型视觉主干。
首先,我们采用 LLaVA-1.5
(Liu 等人,2024a)
作为基线框架,探索改进视觉编码器在 MLLM 中的潜力。
LLaVA 采用预先训练的 CLIP 视觉编码器,并训练投影仪在语义上将视觉标记与大语言模型(大语言模型)中的文本标记对齐。
为了确保公平比较,我们在 LLaVA 中使用相同的设置训练模型,并在各种多模态理解基准上评估模型性能(
i
.
e
.、MMVP
(Tong等人, 2024b)
、POPE
(李等人, 2023)
、MME-Perception
(傅等人, 2023)
、MMBench
(刘等人, 2023)
, MMBench-CN
(刘等人, 2023)
, LLaVA-Bench-in-the-Wild
(刘等人, 2024b)
)。
从表
2
可以清楚地看出,将原始 CLIP 视觉编码器替换为我们的编码器,大大提升了 LLaVA 的性能。
这些基准测试(MME 除外)的准确度大幅提升都归功于我们利用生成反馈的
DIVA
范式带来的 CLIP 视觉感知能力的显着增强。
表3:
通过我们增强的 CLIP 主干和语义分割任务的生成指导实现了性能提升。
* 表示重新实现的结果。
提高 CLIP 感知细粒度视觉细节的能力可以为视觉密集预测任务带来巨大好处。
Method
|
Backbone
|
Ours
|
ADE20K-847
|
ADE20K-150
|
Pascal Context-459
|
Pascal Context-59
|
SAN*
|
ViT-L-14/224
|
|
10.9
|
29.2
|
14.2
|
55.8
|
SAN
|
ViT-L-14/224
|
✔
|
11.0
|
30.2
|
15.4
|
56.7
|
SAN*
|
ViT-L-14/336
|
|
11.5
|
30.3
|
14.7
|
56.7
|
SAN
|
ViT-L-14/336
|
✔
|
11.5
|
31.8
|
15.7
|
57.8
|
增强视觉骨干,实现细粒度视觉感知。
我们还包括分割任务来评估我们增强的 CLIP 主干网为视觉密集预测任务带来的好处。
我们采用开放词汇语义分割领域最新的模型 SAN
(Xu 等人, 2023c)
和 CLIP
(Radford 等人, 2021b)
以 224 和 336 图像分辨率作为基线。
四个常用的基准测试(
i
.
e
.、ADE20K-847/150
(Zhou 等人, 2017)
和 Pascal Context-459/59
(Mottaghi 等人, 2014)
用于绩效评估。
如表
3
所示,借助我们生成的经过微调的 CLIP 主干,基线模型在大多数分割基准测试上取得了相当大的性能提升,并且在其余一个基准测试 (
i
.
e
., ADE20K-847) 上没有出现性能下降。
4.4
泛化能力评估
表 4:
用于评估模型泛化能力的零样本图像分类性能在 27 个数据集上的总结。
O-1和M-1分别代表OpenAI ViT-L-14/224和MetaCLIP ViT-H-14/224。
DIVA
极大地提高了CLIP感知视觉细节的能力,同时保留了其出色的泛化能力。
Method
|
Ours
|
ImageNet-1K
|
ImageNet-V2
|
ImageNet-Adv.
|
ImageNet-Ren.
|
ImageNet-Ske.
|
ObjectNet
|
CIFAR-10
|
CIFAR-100
|
MNIST
|
Caltech-101
|
SUN397
|
FGVC Aircraft
|
Country-211
|
Stanford Cars
|
Birdsnap
|
DTD
|
Eurosat
|
FER2013
|
Flowers-102
|
Food-101
|
GTSRB
|
PCam
|
Pets
|
Rendered SST2
|
Resisc45
|
STL10
|
VOC2007
|
平均
top-1 准确率
|
O-1
|
|
75.5
|
69.8
|
70.7
|
87.8
|
59.6
|
69.0
|
95.6
|
75.8
|
76.4
|
86.6
|
67.5
|
31.9
|
31.9
|
77.8
|
51.4
|
55.4
|
60.1
|
49.9
|
79.1
|
93.0
|
50.6
|
52.0
|
93.6
|
68.8
|
64.5
|
99.4
|
77.4
|
69.3
|
O-1
|
✔
|
75.5
|
69.7
|
70.8
|
87.7
|
59.5
|
69.1
|
95.5
|
76.3
|
76.1
|
86.8
|
67.5
|
31.8
|
31.8
|
77.9
|
51.8
|
55.1
|
60.2
|
49.4
|
78.9
|
93.0
|
50.2
|
53.8
|
93.7
|
67.0
|
64.5
|
99.3
|
77.8
|
69.3
|
M-1
|
|
78.5
|
72.1
|
69.6
|
91.8
|
68.1
|
73.6
|
98.3
|
86.7
|
81.3
|
89.1
|
74.1
|
48.2
|
34.7
|
87.2
|
68.5
|
69.8
|
55.6
|
54.9
|
80.7
|
92.5
|
62.3
|
56.1
|
94.2
|
71.0
|
72.6
|
99.4
|
77.6
|
74.4
|
M-1
|
✔
|
78.4
|
71.9
|
69.1
|
91.6
|
67.9
|
73.4
|
98.3
|
86.4
|
81.0
|
89.1
|
74.3
|
47.0
|
34.7
|
87.2
|
67.8
|
69.6
|
55.0
|
55.8
|
80.7
|
92.4
|
62.4
|
54.8
|
94.1
|
70.7
|
73.0
|
99.4
|
77.6
|
74.2
|
表 5:
Flickr30K 和 COCO 数据集上的零样本文本和图像检索性能摘要,用于评估模型泛化能力。
我们的
DIVA
显着增强了CLIP的视觉细节感知能力,同时保持其出色的泛化能力。
Method
|
Ours
|
Image Size
|
Zero-Shot
Text
Retrieval
|
Zero-Shot
Image
Retrieval
|
Flickr30K
|
COCO
|
Flickr30K
|
COCO
|
R@1
|
R@5
|
R@10
|
R@1
|
R@5
|
R@10
|
R@1
|
R@5
|
R@10
|
R@1
|
R@5
|
R@10
|
OpenAI ViT-L-14
|
|
224
2
|
85.1
|
97.3
|
99.0
|
56.4
|
79.4
|
86.6
|
65.2
|
87.3
|
92.0
|
36.5
|
61.0
|
71.1
|
OpenAI ViT-L-14
|
✔
|
224
2
|
85.3
|
97.3
|
99.0
|
56.7
|
79.7
|
87.0
|
64.4
|
86.9
|
92.0
|
36.6
|
61.0
|
71.3
|
MetaCLIP ViT-H-14
|
|
224
2
|
89.5
|
98.8
|
99.7
|
65.5
|
85.2
|
91.1
|
76.8
|
93.9
|
96.6
|
48.2
|
72.3
|
81.1
|
MetaCLIP ViT-H-14
|
✔
|
224
2
|
89.2
|
98.7
|
99.7
|
65.5
|
85.0
|
91.1
|
77.3
|
93.8
|
96.7
|