图1:
上图:来自RefCOCOg的一个典型的参考表达式识别(REC)示例。 两个“相似”的表达(R1和R2)指的是不同的对象。 下图:主流MAttNet
(Yu et al. 2018a)
第一阶段提出的示例。 这些候选区域仅包含具有高检测置信度(
>
0.65)的边界框,而不管表达的内容如何(
e
.
g
., 候选区域
knife
、
book
和
cup
在R3中没有提及)。 红色虚线边界框表示缺失的指称对象。
最先进的参考表达式识别(REG)方法可以分为两大类:一阶段、无候选区域方法和两阶段、基于候选区域的方法。 对于一阶段方法
(Chen et al. 2018; Yang et al. 2019b; Liao et al. 2020)
,它们将REG视为一个广义的目标检测(或分割)任务,并将整个文本表达式视为一个特定的对象类别。 尽管这些一阶段方法实现了更快的推理速度,但它们的定位性能,特别是对于复杂的表达式(
e
.
g
., 在RefCOCOg数据集中),仍然落后于两阶段方法。 差异的主要原因有两个:1)一阶段方法自然地关注局部内容,
i
.
e
., 它们在需要全局推理的表达式中表现不佳。 例如,在图
1
中,当定位“
一只躺在白色毛巾上,旁边有一些钥匙的猫
”时,即使对于人类来说,如果不考虑其上下文对象
towel
和
keys
,也很难识别指称对象
cat
。 2)一阶段方法没有利用表达式的语言结构,
i
.
e
., 它们对表达式中的语言变化不敏感。 例如,当将图
1
中的表达式改为“
一只可爱的有条纹的猫正看着白色毛巾上的猫
”时,它们往往指的是同一个对象(#1)
(Akula et al. 2020)
。 相反,两阶段方法
(Yu et al. 2018a; Liu et al. 2019a, c)
更直观地类似于人类的推理方式:1)使用检测器检测候选区域;2)将指称对象定位到其中一个候选区域。 一般来说,具有完美候选区域的两阶段方法(
e
.
g
., 所有人工标注的对象区域)可以比一阶段方法实现更准确、更易解释的定位结果。
不幸的是,当使用现成检测器的结果作为候选框时,两阶段方法的性能都会急剧下降。 这也是两阶段解决方案经常受到文献
i
.
e
中的竞争方法批评的主要弱点。两阶段方法的性能受到严重限制提案质量。 在本文中,我们认为检测到的候选框与真实值候选框之间巨大的性能差距主要是由两阶段中候选框作用的
不匹配
造成的:
第一阶段网络仅基于检测置信度生成候选框,而第二阶段网络则假设生成的候选框将包含表达式中的所有正确实例
。 更具体地说,对于每幅图像,经过良好预训练的检测器可以检测数百个检测,并近乎完美地回忆所指对象和上下文对象 (
e
.
g
.,如图
2
所示,在前100个检测中,所指对象的召回率可以达到96.58%)。 然而,为了减轻第二阶段中参照对象定位步骤的负担,当前的两阶段方法总是简单地基于它们的检测置信度来过滤候选框。 这些启发式规则导致召回率急剧下降(
e
.
g
.,降至 80.77%,如图
2
所示),并带来在疏忽的不匹配中。 为了进一步说明这一点,我们在图
1
中展示了一个具体的例子。 为了在第二阶段定位参照对象,我们希望候选框包含参照对象
人
及其上下文对象
披萨
。 相比之下,第一阶段网络只保留检测置信度较高的bbox(
e
.
g
.、
knife
、
book
和
cup
)作为提案,但实际上错过了关键参考对象
person
(
i
.
e
.,红色框)。
指称表达理解 (REC)。
目前绝大多数的REC方法都是两阶段的:候选区域生成和指称定位。 据我们所知,现有的两阶段工作都集中在第二阶段。 具体来说,他们倾向于通过结构建模
(Yu et al. 2018a; Liu et al. 2019c, a, b; Hong et al. 2019; Niu et al. 2019)
设计更可解释的推理过程,或更有效的多模态交互机制
(Wang et al. 2019; Yang, Li, and Yu 2020)
。 然而,它们的性能严格受限于第一阶段的候选区域。 最近,解决REC的另一个新兴方向是一阶段方法
(Chen et al. 2018; Yang et al. 2019b; Liao et al. 2020; Luo et al. 2020; Yang et al. 2020)
。 尽管一阶段方法在经验上实现了更快的推理速度,但它们是以牺牲可解释性和复合表达中的较差性能为代价的。 本文纠正了双阶段方法中被忽视的错配问题。
候选区域生成。
给定一张图像,当前的两阶段方法总是求助于一个经过良好预训练的检测器来获得一组最初检测到的边界框,并利用 NMS 来去除重复的边界框。 然而,即使在 NMS 操作之后,仍然剩下数千个 bbox(
e
.
g
.,RefCOCO 中的每个图像平均有 3,500 个检测)。 为了减轻后续参照物定位步骤的负担,所有现有工作都基于它们的检测置信度进一步过滤这些边界框。 尽管这种启发式过滤规则可以减少候选区域的数量,但它也导致参照物和上下文对象的召回率急剧下降(详细结果见表
1
)。 ).
指代定位。
在训练阶段,两阶段的方法通常使用可可中的地面区域作为建议,而且数字很小(
e
。
g
。 Refcoco平均有9.84个地面区域)。 对于可解释的接地,最新的两阶段方法总是将这些建议构成图形
(Yang,Li,and Yu 2019;Wang等人2019)
或Tree
(liu等人2019a; hong 2019)
结构,
i
。
e
。 因此,在测试阶段,必须对它们进行第一阶段的检测过滤。
二元交叉熵损失 (Binary XE Loss)。
For each bbox
𝒃
i
∈
ℬ
, if it has a high overlap (
i
.
e
., IoU
>
0.5) with any foreground bbox, its ground-truth relatedness score
r
∗
is set to 1, otherwise
r
∗
=
0
. 然后,相关性分数预测成为一个二元分类问题。 我们可以使用二元交叉熵 (XE) 损失作为训练目标:
排序损失 (Ranking Loss)。
一般来说,如果一个bbox与前景bbox的IoU较高,则该bbox与表达式之间的相关性应该较高,
i
.
e
。,我们可以将排名损失用作培训目标:
其中
ρ
i
表示边界框
𝒃
i
与前景边界框之间的最大IoU值,
N
是正负训练对的总数,
α
是一个控制排序裕度的常数,设置为0.1。 为了选择正负对
(
𝒃
i
,
𝒃
j
)
,我们遵循分割后采样策略
(Tan et al. 2019)
。 具体来说,我们首先根据量化
q
值将bbox集合
ℬ
分为6个子集:
q
i
=
⌈
max
(
0
,
ρ
i
−
0.5
)
/
0.1
⌉
,
i
。
e
.,IoU值较高的bbox具有较大的
q
值。 然后,所有具有
ρ
>
0.5
的边界框都被选为正样本。 对于每个正样本,我们根据来自具有较小
q
值子集的并集的预测相关性分数,将前
h
个边界框排为负样本。
Ref-NMS
Referent
Contextual Objects
RefCOCO
RefCOCO+
RefCOCOg
RefCOCO
RefCOCO+
RefCOCOg
val
testA
testB
val
testA
testB
val
test
val
testA
testB
val
testA
testB
val
test
N=100
97.60
97.81
96.58
97.79
97.78
96.99
97.18
96.91
90.14
89.85
90.53
89.53
88.47
90.69
90.56
90.30
B
97.75
98.59
97.08
97.96
98.39
97.50
97.61
97.44
90.38
90.31
90.64
89.67
88.88
91.04
90.36
90.37
R
97.62
98.02
96.78
97.71
98.06
97.14
97.18
97.08
90.22
89.83
90.63
89.70
88.62
90.71
90.67
90.30
真实
88.84
93.99
80.77
90.71
94.34
84.11
87.83
87.88
74.97
78.60
70.19
76.34
77.45
73.52
75.69
75.87
B
92.51
95.56
88.28
93.42
95.86
88.95
90.28
90.34
78.75
80.14
76.47
78.44
78.82
77.49
76.12
76.57
R
90.50
94.75
83.87
91.62
95.14
86.42
89.01
88.96
76.79
79.12
72.99
77.66
78.44
75.59
76.68
76.73
表1:
参照物和上下文对象的召回率 (%)。 基线检测器是基于ResNet-101的Mask R-CNN,带有普通的GreedyNMS。 B 表示使用二元交叉熵损失的 Ref-NMS,R 表示使用排序损失的 Ref-NMS。 Real 表示最先进的两阶段方法中使用的真实情况。