摘要
Grounding-DINO 是一种最先进的开放集检测模型,它可以处理多种视觉任务,包括开放词汇表检测 (OVD)、短语定位 (PG) 和指称表达式理解 (REC)。
其有效性使其被广泛采用,成为各种下游应用的主流架构。
然而,尽管 Grounding-DINO 模型意义重大,但由于其训练代码不可用,原始模型缺乏全面的公共技术细节。
为了弥补这一差距,我们提出了
MM-Grounding-DINO
,这是一个开源的、全面的且用户友好的管道,它是使用 MMDetection 工具箱构建的。
它采用大量视觉数据集进行预训练,以及各种检测和定位数据集进行微调。
我们对每个报告的结果和可复现的详细设置进行了全面的分析。
在上述基准测试上的大量实验表明,我们的 MM-Grounding-DINO-Tiny 的性能优于 Grounding-DINO-Tiny 基线。
我们向研究界发布了我们所有的模型。
代码和训练好的模型发布在https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino。
图1
:
(a)
开放词汇表检测
(
OVD
)。
(b)
短语定位
(
PG
)。
(c)
指代表达理解
(
REC
).
图2
:
各种基准测试的结果。
MM-Grounding-DINO 在广泛的任务中优于其他定位模型。
1
引言
目标检测任务通常涉及将图像输入模型以获得建议,然后通过多模态对齐将这些建议与文本匹配,使其成为大多数最先进的多模态理解架构的关键组成部分。
目前,根据输入文本的类型,目标检测可以细分为三个子任务:开放词汇检测 (OVD)、短语定位 (PG) 和指代表达理解 (REC)。
在零样本设置下,OVD 模型在基础类别上进行训练,但需要在一个大规模语言词汇表中预测基础类别和新类别
[29]
。
短语定位任务不仅将描述所有候选类别的类别和短语作为输入,还输出相应的边界框
[25]
。
REC 任务的主要目标是准确识别给定文本描述所指定的目标,并随后利用边界框标记其位置
[9]
。
近年来,人们探索了众多视觉定位和检测模型来解决上述任务。
在这些定位模型中,Grounding-DINO
[20]
已成为具有优越性能的主流架构。
基于闭集检测器 DINO
[34]
,Grounding-DINO-Large 在 COCO
[17]
上实现了最先进的零样本性能 (mAP 52.5),无需任何 COCO 训练数据。
Grounding-DINO 在各个阶段执行视觉和语言模态的集成,包括特征增强器、查询选择模块和解码器。
这种深入的融合方法显著增强了在开放集环境中对对象的检测,并且基于 DETR 的结构使其成为一个没有任何手工制作模块的端到端网络。
鉴于 Grounding-DINO 已在上述三个下游任务中表现出优越的精度,但并非完全开源(仅提供测试和演示代码),我们利用 OpenMMLab 项目中的 MMDetection 工具箱
[4]
重建了 Grounding-DINO 模型,遵循 Grounding-DINO 的官方测试代码。
除初始化过程中的修改外,模型结构几乎保持不变。
基于Grounding-DINO框架,我们建议应用更多数据集进行预训练,包括COCO、Objects365
[27]
、GRIT
[23]
、V3Det
[28]
、RefCOCO
[13]
、RefCOCO+
[33]
、RefCOCOg
[22]
、GQA
[11]
/ Flickr30k Entities
[24]
(组合也称为Golden-G数据集
[12]
),从而得到一个更强大的基于Grounding-DINO的模型,我们称之为MM-Grounding-DINO。
由于Grounding-DINO使用的Cap4M数据集
[25]
并非开源,我们在研究中选择GRIT和V3Det数据集作为替代。
我们进一步扩展了OVD、PG和REC评估的所有可用基准,包括COCO、LVIS
[8]
、RefCOCO/+/g、Flickr30k Entities、ODinW13/35
[15]
、gRefCOCO
[19]
和描述检测数据集(
D
3
)
[30]
。
据我们所知,我们是第一个实现一个框架来促进对如此广泛的数据集进行系统评估的团队。
所有评估指标都可以在MMDetection中轻松获得。
使用大量数据进行预训练后,MM-Grounding-DINO-Tiny在COCO上实现了零样本50.6 mAP,在LVIS mini上实现了41.4 mAP,并在REC任务中全面超越Grounding-DINO-Tiny,详细结果见第
3
节。
我们希望我们的流程能够成为OVD、PG和REC任务进一步研究的宝贵资源。
我们论文的贡献如下:
1.
我们提出了MM-Grounding-DINO,这是一个基于Grounding-DINO并使用丰富的视觉数据集进行预训练的全面且开源的定位管道,它全面地解决了OVD、PG和REC任务。
2.
我们率先扩展了OVD、PG和REC评估的所有可用基准,包括COCO、LVIS、RefCOCO/+/g、Flickr30K Entities、ODinW13/35、gRefCOCO和
D
3
。
所有评估指标都可以在MMDetection中轻松获得。
3.
我们通过使用大量外部专用数据集微调我们的模型,广泛评估了我们模型的迁移能力。
2
方法
在本节中,我们将详细介绍模型和数据集。
除非另有说明,
MM-G
表示MM-Grounding-DINO。
G-DINO
指的是 Grounding-DINO。
O365
指的是 Objects365 V1,
GoldG
在接下来的章节中指的是 GQA 和 Flickr30k Entities 的组合。
图3
:
MM-Grounding-DINO 的示意图。
给定图像和文本描述,首先利用文本主干和图像主干分别提取文本和图像特征。
然后将图像和文本特征输入到特征增强模块中,进行深度跨模态融合。
融合后,采用语言引导的查询选择模块从图像特征中提取跨模态查询。
这些跨模态查询随后被输入到跨模态解码器中,该解码器旨在从两种模态特征中探测所需的特征。
解码器最终层生成的输出查询随后用于预测目标框和相应的短语。
2.1
模型
表1
:
MM-G/G-DINO 的变体及其对应的预训练数据集。
每个变体旁边的相同符号(即 a、b、c)表示可比较的组。
由于 Cap4M是非开源的,因此使用 GRIT 和 V3Det 作为替代数据集。
VG:Visual Genome。
RefC:RefCOCO/+/g。
INB:ImageNetBox。
Model
Training Datasets
Image Consumption
MDETR
COCO, RefC, VG, GoldG
52M (40 Ep
×
1.3M Img)
GLIP
O365, OpenImages, VG, INB, COCO, RefC, GoldG, Cap24M
64M (64 Bs
×
1M Iter)
GLIPv2 (stage II)
COCO, LVIS, PhraseCut, Cap16M
5.36M (24 Ep
×
0.2M Img + 8 Ep
×
0.07M Img)
G-DINO-Tiny(a)
O365
18.3M (30 Ep
×
128 Bs
×
4755 Iter)
G-DINO-Tiny(b)
O365, GoldG
41.3M (30 Ep
×
128 Bs
×
10763 Iter)
G-DINO-Tiny(c)
O365, GoldG, Cap4M
-
MM-G-Tiny(a)
O365
18.3M (30 Ep
×
128 Bs
×
4755 Iter)
MM-G-Tiny(b)
O365, GoldG
41.3M (30 Ep
×
128 Bs
×
10763 Iter)
MM-G-Tiny(c1)
O365, GoldG, GRIT
56.3M (30 Ep
×
128 Bs
×
14669 Iter)
MM-G-Tiny(c2)
O365, GoldG, V3Det
46.8M (30 Ep
×
128 Bs
×
12196 Iter)
MM-G-Tiny(c3)
O365, GoldG, GRIT, V3Det
61.8M (30 Ep
×
128Bs
×
16102 Iter)
MM-G-Large
COCO, RefC, O365V2, GoldG, GRIT, Open-Images, V3Det
-
正如我们在第
An Open and Comprehensive Pipeline
for Unified Object Grounding and Detection
节中提到的那样,我们的模型基于Grounding-DINO
[20]
,并且几乎保持不变。
我们的框架如图
3
所示。
给定具有形状
[
B
a
t
c
h
s
i
z
e
,
3
,
H
,
W
]
的图像和文本描述,我们的模型可以将描述与生成的相应边界框对齐。
我们模型的组件包括:用于提取文本特征的文本主干网络,用于提取图像特征的图像主干网络,用于深度融合图像和文本特征的特征增强器,用于查询初始化的语言引导查询选择模块,以及用于边界框细化的跨模态解码器。
更多结构细节请参见
[20]
。
特征提取与融合
。
给定一个图像-文本对,我们采用图像主干网络来提取多尺度的图像特征,同时,利用文本主干网络提取文本特征。
然后我们将这两个特征输入到特征增强模块进行跨模态融合。
在特征增强模块中,文本特征和图像特征首先通过一个双注意力块进行融合,该双注意力块包含文本到图像的交叉注意力层和图像到文本的交叉注意力层。
然后,融合后的文本特征和图像特征分别使用普通的自注意力层和可变形自注意力层以及随后的FFN层进行进一步增强,如算法
1
所示。
算法 1
特征增强层
1:
融合图像,融合文本=
2:
BiAttentionBlock(图像特征,文本特征)
3:
fused_text =
4:
FFN(SelfAttentionLayer(fused_text))
5:
fused_image =
6:
FFN(DeformableAttentionLayer(fused_image))
语言引导的查询选择
。
为了优化文本在引导目标检测中的利用率,Grounding-DINO设计了一个语言引导的查询选择模块。
语言引导的查询选择模块基于与输入文本特征(作为解码器查询)的余弦相似度来选择
n
u
m
_
q
u
e
r
y
个候选框。
参数
n
u
m
_
q
u
e
r
y
表示馈送到解码器的查询数量,在我们的实现中,它已根据DINO
[34]
配置为900。
解码器的输入查询由两个部分组成:内容部分和位置部分。
位置部分表示动态锚框,并基于语言引导的查询选择模块的输出进行初始化,而内容部分则初始化为全零可学习查询。
跨模态解码器
。
Grounding-DINO中的跨模态解码器层旨在进一步结合文本和图像特征进行跨模态学习。
在自注意力之后,该架构包含一个图像交叉注意力层,随后是一个文本交叉注意力层,最终是一个FFN层。
与DINO解码器层相比,每个解码器层都多了一个文本交叉注意力层。
这种增强是由于需要将文本信息注入查询中,从而提高模型性能的需要。
训练损失
。
对于边界框回归分支,实现了L1损失和GIOU
[26]
损失。
遵循 GLIP
[16]
,我们利用 focal loss
[18]
作为预测框和用于分类的语言符元之间的对比损失。
每个预测框都将与所有语言符元相乘以计算它们之间的相似度。
框回归和分类损失被联合用于计算二分匹配损失
[3]
。
与 Grounding-DINO 保持一致,我们也为每个解码器层以及编码器输出加入辅助损失。”
区别
。
MM-G 和 G-DINO 之间的主要区别在于
对比嵌入模块
。
受 CLIP
[25]
的启发,我们在初始化对比嵌入模块时添加了偏差。
这可以显著降低初始损失值并加速模型的收敛。
实现代码如算法
2
所示。
算法 2
对比嵌入
1:
res = Visual_feat @ text_feat.transpose(-1, -2)
2:
res = res / math.sqrt(visual_feat.shape[-1])
3:
res = res + self.bias
2.2
数据集准备
我们的数据格式受 Open Grounding-DINO
[35]
中的格式启发,并根据 MMDetection 中的格式进行了修改。
由于MM-Grounding-DINO旨在处理三种不同标注类型数据集的任务,我们将使用的15个数据集分别划分为三组。
数据集的详细信息如表
2
所示。
值得注意的是,在训练过程中,GRIT中的全部数据(超过1300万)并非每个纪元都得到充分利用。
相反,它被分成每个纪元500,000个片段。
OVD数据集
。
我们用于训练的数据集包括
COCO
[17]
,
Objects365V1
[27]
,
Objects365V2
[27]
,
V3Det
[28]
,
Open-Images
,而评估数据集包含
COCO
,
LVIS
[8]
,
ODinW12/35
[15]
。
PG数据集
。
训练数据集包括
GQA
[11]
,
GRIT
[23]
,
Flickr30K Entities
[24]
,而
Flickr30K Entities
数据集也用于评估。
REC数据集
训练数据集包括
RefCOCO
[13]
,
RefCOCO+
[33]
,
RefCOCOg
[22]
。
为了评估,我们使用了更广泛的数据集,其中包含
RefCOCO
,
RefCOCO+
,
RefCOCOg
,
gRefCOCO
[19]
和
Description Detection Dataset(
D
3
)
[30]
。
表2
:
MM-Grounding-DINO中使用的数据集的详细信息。
用星号(*)表示的数据集可以在我们的框架中用于训练和评估。
基准测试仅用于评估,其余数据集仅用于训练。
Dataset
Task
Images
Instances
categories
COCO
1
[17]
OVD
123K
896K
80
Objects365-V1
[27]
OVD
638K
10M
365
Objects365-V2
[27]
OVD
1.7M
25M
365
OpenImages-V6
OVD
1.5M
14M
600
V3Det
[28]
OVD
245K
1753K
13029
Flickr30k Entities
1
[24]
PG
31K
275K
-
GQA
[11]
PG
113K
-
-
GRIT
[23]
PG
9M
137M
-
RefCOCO
1
[13]
REC
19K
50K
-
RefCOCO+
1
[33]
REC
19K
49K
-
RefCOCOg
1
[22]
REC
26K
54K
-
LVIS
[8]
OVD Benchmark
164K
2M
1000
ODinW
[15]
OVD Benchmark
20K
135K
314
gRefCOCO
[19]
REC Benchmark
19K
60K
-
D
3
[30]
REC Benchmark
10K
18K
-
2.3
训练设置
文本输入规则。
对于OVD训练,我们将检测数据集中的所有类别连接成一个长字符串,例如“
人。球。球拍。猫。
”。
对于PG和REC任务,遵循M-DETR
[12]
,在预训练阶段,我们对文本中提到的每个对象进行标注,这导致该任务中模型应用的细微修改。
例如,在预训练期间,给定标题“穿着蓝色连衣裙的女人站在玫瑰花丛旁”,MM-Grounding-DINO将被训练以预测所有被提及对象的边界框,例如
那位女士
,
那件蓝色的连衣裙
和
那丛玫瑰
。
模型变体。
与Grounding-DINO类似,我们选择一个经过良好预训练的基于BERT的未区分大小写模型
[6]
作为我们的语言编码器,并选择Swin Transformer
[21]
作为图像主干。
我们比较了MM-G-tiny和G-DINO-Tiny中不同数据集的组合。
如表
1
所示,训练数据集的选择取决于图像主干的规模。
数据增强
。
除了随机调整大小、随机裁剪和随机翻转外,我们还在数据增强中引入了随机负样本。
我们将从其他图像中随机采样的类别或文本描述(作为负样本)与作为正样本的地面实况描述连接起来。
这可以有效地抑制模型生成的幻觉现象,从而使模型不会预测图像中不存在的对象。
计算资源
。
我们在32个NVIDIA 3090 GPU上训练了我们的MM-G-Tiny,总批量大小为128,训练了30个epoch。
由于MM-G-Large的计算成本极高,MM-G-Large模型仍在训练中。
3
主要结果
3.1
零样本迁移
在零样本设置中,MM-G 模型最初在基础数据集上进行训练,随后在新的数据集上进行评估。
此外,我们还提供了一组通过微调获得的结果,以便对我们的模型与 Grounding-DINO 进行全面的比较。
这种方法确保了对模型性能及其在该领域相对地位的可靠评估。
表3
:
COCO 基准测试结果。
所有 MM-G-T 变体都优于其对应的模型,值得注意的是,MM-G-T(c1)在零样本设置中实现了 50.5 mAP。
Model
Backbone
Lr schd
COCO mAP
GLIP
Swin-T
zero-shot
46.6
G-DINO-T(a)
Swin-T
zero-shot
46.7
G-DINO-T(b)
Swin-T
zero-shot
48.1
G-DINO-T(c)
Swin-T
zero-shot
48.4
MM-G-T(a)
Swin-T
zero-shot
48.5(+1.8)
MM-G-T(b)
Swin-T
zero-shot
50.4(+2.3)
MM-G-T(c1)
Swin-T
zero-shot
50.5(+2.1)
MM-G-T(c2)
Swin-T
zero-shot
50.6(+2.2)
MM-G-T(c3)
Swin-T
zero-shot
50.4(+2.0)
表4
:
LVIS 基准测试结果。
所有 MM-G-T 变体都优于其对应的模型。
值得注意的是,MM-G-T(c3)在 Mini Val 零样本设置中达到了 41.4 AP,并在经过 12 个 epoch 的微调后提高了 17.3。
Model
Backbone
Lr schd
GLIP
Swin-T
zero-shot
18.1
21.2
33.1
26.7
10.8
14.7
29.0
19.6
G-DINO-T(c)
Swin-T
zero-shot
18.8
24.2
34.7
28.8
10.1
15.3
29.9
20.1
MM-G-T(b)
Swin-T
zero-shot
28.1
30.2
42.0
35.7
17.1
22.4
36.5
27.0
MM-G-T(c1)
Swin-T
zero-shot
26.6
32.4
41.8
36.5(+7.7)
17.3
22.6
36.4
27.1(+7.0)
MM-G-T(c2)
Swin-T
zero-shot
33.0
35.6
45.9
40.5(+11.7)
17.3
22.6
36.4
27.1(+7.0)
MM-G-T(c3)
Swin-T
zero-shot
34.2
37.4
46.2
41.4(+12.6)
23.6
27.6
40.5
31.9(+11.8)
COCO 基准测试
.
我们对在 O365 数据集和其他 PG/REC 数据集上预训练的 MM-Grounding-DINO 进行了评估。
遵循 Grounding-DINO,COCO 数据集用于建立零样本学习基线。
我们在表
3
中比较了 MM-Grounding-DINO-Tiny 与 Grounding-DINO-Tiny。
结果表明,即使仅用 O365 训练的 MM-G(a) (mAP 48.5) 也能优于用 O365、Gold-G 和 Cap4M 训练的 G-DINO(c) (mAP 48.4),这证明了我们模型的效率。
使用 objects365、Gold-G 和 GRIT 训练的 MM-G-T(c) 表现为
50.5 mAP
,在 COCO 基准测试上比 G-DINO(c) 提高了 2.1 AP。
这在训练过程中无需模型接触任何 COCO 图像即可实现,我们使用的 GRIT 数据甚至少于 Cap4M (4M)。
这可能有两种解释:
还观察到,加入 V3Det 数据集并没有对 COCO 零样本评估产生积极的贡献,甚至可能产生不利影响。
LVIS 基准测试
。
LVIS 数据集构成一个长尾检测数据集,包含超过 1000 个不同的评估类别。
遵循 Grounding-DINO,LVIS 也用于零样本 OVD 评估。
我们在表
4
中将 MM-Grounding-DINO-Tiny 与 Grounding-DINO-Tiny 进行比较。
我们观察到,尽管 MM-G(a) 在没有 Cap4M 的情况下由 O365 和 GoldG 训练,但它仍然在 LVIS MiniVal 和 Val 上都超过了 G-DINO(c) +6.9AP。
加入 V3Det 后,MM-G(c1) 在 MiniVal 上超过 G-DINO(c) +7.7AP,在 Val 上超过 +7.0AP;MM-G(c3) 实现了近 5 AP 的大幅改进,在 MiniVal 上达到
41.4 mAP
,在 Val 上达到
31.9 mAP
,这在 MiniVal 上比 G-DINO(c) 高出显著的
+12.6 AP
,在 Val 上高出
+11.8 AP
!
可能的原因可以分为两个方面:
表 5
:
RefCOCO/+/g 结果。
Grounding-DINO 的训练细节尚未公布,因此微调的学习计划未知。
Method
Backbone
Setting
RefCOCO
RefCOCO+
RefCOCOg
val
testA
testB
val
testA
testB
val
test
G-DINO-T(c)
Swin-T
zero-shot
50.8
57.4
45.0
51.6
57.3
46.4
60.4
59.7
MM-G-T(b)
Swin-T
zero-shot
53.1
59.7
46.4
53.1
58.9
47.9
61.2
61.1
MM-G-T(c1)
Swin-T
zero-shot
53.4
58.8
46.8
53.5
59.0
47.9
62.7
62.6
MM-G-T(c2)
Swin-T
zero-shot
52.1
58.4
45.4
52.5
58.2
46.9
61.7
61.0
MM-G-T(c3)
Swin-T
zero-shot
53.1
59.1
46.8
52.7
58.7
48.4
62.9
62.9
G-DINO-T(c)
Swin-T
-
89.2
91.9
86.0
81.1
87.4
74.7
84.2
84.9
MM-G-T(c3)
Swin-T
5e
89.5
91.4
86.6
82.1
87.5
74.0
85.5
85.8
ODinW 基准测试
.
ODinW(野外目标检测)基准测试代表一个更严格的基准测试,旨在评估模型在现实世界环境中的性能。
它包含 35 个目标检测数据集,每个数据集都增加了外部知识。
我们利用 ODinW13/35 来评估我们模型的可迁移性,汇总结果如表
6
所示。
我们的 MM-G-T(c3) 表现优于 G-DINO-T(c),在 ODinW13 和 ODinW35 上分别取得了
53.3 mAP
和
28.4 mAP
的分数,这证明了我们模型强大的可迁移性。
很明显,广泛的词汇量对于 ODinW 数据集具有重要意义。
集成 V3Det 后,模型的性能得到了大幅提升。
这种改进的主要原因是 V3Det 包含了 ODinW 中更广泛的类别。
各个子数据集的详细结果见附录
A.3
。
表 6
:
ODinW 上的零样本领域迁移。
Model
Backbone
ODinW13
ODinW35
G-DINO-T(c)
Swin-T
51.4
22.7
MM-G-T(b)
Swin-T
45.3
20.2
MM-G-T(c1)
Swin-T
51.1
22.8
MM-G-T(c2)
Swin-T
51.1
22.8
MM-G-T(c3)
Swin-T
53.3(+1.9)
28.4(+5.7)
表 7
:
gRefCOCO 基准测试结果。
请注意,阈值设置为 0.6。
更多结果请参考附录
A.1
。
Method
Backbone
gRefCOCO
Pr(F1=1, IoU
⩾
0.5) / N-acc
val
testA
testB
G-DINO-T(c)
Swin-T
40.5/
83.8
29.3
/82.9
30.0/86.1
MM-G-T(c3)
Swin-T
40.6
/83.1
29.2/
84.3
31.6
/
96.7
RefCOCO/+/g 和 gRefCOCO 基准测试
。
我们还在 REC 任务上评估了 MM-G 的零样本能力。
RefCOCO、RefCOCO+ 和 RefCOCOg 用于 REC 评估,结果如表
5
所示。
与 RefCOCO 相比,gRefCOCO 将其范围扩展到包含多目标表达式,这需要通过单个表达式指定多个目标对象。
此外,gRefCOCO 容纳了不指向图像中任何对象的无目标表达式。
此增强功能显著提高了输入表达式的多功能性,从而增强了 REC 在实际应用中的实用性和稳健性。
我们还在 gRefCOCO 基准测试上进行了评估,以评估 REC 的零样本能力,结果如表
7
所示。
我们的模型能够在 RefCOCO 上超越所有零样本评估指标的基线,并且在 gRefCOCO 上能够超越或大致等于 G-DINO。
从结果可以推断,V3Det 数据集无法为 REC 任务提供任何好处。
描述检测数据集(
𝐃
𝟑
) 基准测试
。
D
3
的特点在于其灵活的语言表达,从简洁的类别名称到详尽的描述,它确保了所有图像中所有被描述对象的全面标注,无遗漏。
D
3
中的句子略长于普通单词,因此它不需要模型具有很高的理解能力。
事实上,它更倾向于 OVD 任务。
此外,
D
3
中包含 24,282 个正对象-文本对和 7,788,626 个负对象对,这对模型区分负对象的能力提出了严格的要求。
我们在表
8
中报告了我们的结果。
从结果来看,我们观察到使用Cap4M训练的带有GRIT的MM-G-T(c1)和G-DINO-T(c)表现出了相当的性能。
特别是,MM-G-T(c1)在长句中表现出改进,而G-DINO-T(c)在处理短句时显示出进步。
这将在第
3.2
节中详细阐述。
在加入包含大量精确标注的V3Det之后,MM-G-T(c3)在短句上的性能超过了G-DINO-T(c),而长句上的性能却变差了。
这主要是因为V3Det中的大部分文本标注都是短句。
表8
:
零样本迁移到
D
3
。
FULL、PRES和ABS分别表示
所有描述的评估
、
仅存在描述的评估
和
仅不存在描述的评估
。
s/m/l/vl分别表示
短
、
中
、
长
和
超长
。
Method
mode
G-DINO-T(c)
MM-G-T(b)
MM-G-T(c1)
MM-G-T(c2)
MM-G-T(c3)
FULL/s/m/l/vl
concat
17.2/18.0/
18.7
/14.8/
16.3
15.6/17.3/16.7/14.3/13.1
17.0/17.7/18.0/
15.7
/15.7
16.2/17.4/16.8/14.9/15.4
17.5
/
23.4
/18.3/14.7/13.8
parallel
22.3/
28.2
/24.8/19.1/13.9
21.7/24.7/24.0/20.2/13.7
22.5/25.6/25.1/
20.5
/
14.9
22.3/25.6/24.5/20.6/14.7
22.9
/28.1/
25.4
/20.4/14.4
PRES/s/m/l/vl
concat
17.8/18.3/
19.2
/15.2/17.3
16.4/18.4/17.3/14.5/14.2
17.9/19.0/18.3/
16.5
/
17.5
16.6/18.8/17.1/15.1/15.0
18.0
/
23.7
/18.6/15.4/13.3
parallel
21.0/
27.0
/22.8/17.5/12.5
21.3/25.5/22.8/
19.2
/12.9
21.5/25.2/23.0/19.0/
15.0
21.6/25.7/23.0/19.5/14.8
21.9
/27.4/
23.2
/19.1/14.2
ABS/s/m/l/vl
concat
15.4/17.1/16.4/
13.6
/
14.9
13.4/13.4/14.5/13.5/11.9
14.5/13.1/16.7/
13.6
/13.3
14.8/12.5/15.6/14.3/15.8
15.9
/
22.2
/
17.1
/12.5/14.4
parallel
26.0
/
32.0
/33.0/23.6/
15.5
22.8/22.2/28.7/22.9/14.7
25.6/26.8/33.9/
24.5
/14.7
24.1/24.9/30.7/23.8/14.7
26.0
/30.3/
34.1
/23.9/14.6
表9
:
LVIS基准上的微调结果。
Model
Backbone
Setting
MM-G-T(c3)
Swin-T
zero-shot
34.2
37.4
46.2
41.4
23.6
27.6
40.5
31.9
MM-G-T(c3)
Swin-T
open-set 1x
50.7(+16.5)