我们的方法首次在无标注 3D 场景分割上取得了有希望的结果。
当使用标记数据进行微调时,我们的方法显著优于最先进的自我监督方法。
2
相关工作
图 2
:
语义驱动跨模态对比学习的说明。
首先,我们分别通过文本编码器、图像编码器和点编码器获得文本嵌入
t
i
、图像像素特征
x
i
和点特征
p
i
。
其次,我们利用 CLIP 知识构建正样本和负样本以进行对比学习。
因此,我们在短时间内获得点-文本对
{
x
i
,
t
i
}
i
=
1
M
和所有像素-点-文本对
{
x
^
i
k
,
p
^
i
k
,
t
i
k
}
i
=
1
,
k
=
1
M
^
,
K
。
这里,
{
x
i
,
t
i
}
i
=
1
M
和
{
x
^
i
k
,
p
^
i
k
,
t
i
k
}
i
=
1
,
k
=
1
M
^
,
K
分别用于语义一致性正则化和时空一致性正则化。
最后,我们通过将点特征拉到其对应的文本嵌入来执行语义一致性正则化,并通过模仿时间上连贯的点特征与其对应的像素特征来执行时空一致性正则化。
由于 CLIP 是在二维图像和文本上预训练的,我们首要关注的是二维图像和三维点云之间的域差距。
为此,我们构建了密集的像素-点对应关系,并通过像素-点对将图像知识转移到三维点云中。
具体来说,我们使用六个相机拍摄的对应图像校准了激光雷达点云。
因此,可以相应地获得密集的像素-点对应关系
{
x
i
,
p
i
}
i
=
1
M
,其中
x
i
和
p
i
分别表示
i
对配对的图像特征和点特征,分别由 CLIP 的图像编码器和三维网络提取。
M
是对的数量。
请注意,这是一个在线操作,与图像和点数据增强无关。
以前的方法
[51, 44]
为跨模态知识转移提供了一个有希望的解决方案。
他们首先构建正像素-点对
{
x
i
,
p
i
}
i
=
1
M
和负对
{
x
i
,
p
j
}
(
i
≠
j
)
,然后通过 InfoNCE 损失将正对拉入,同时将负对推离嵌入空间。
尽管以前的方法在转移跨模态知识方面取得了令人鼓舞的性能,但它们都面临着相同的优化冲突问题。
例如,假设
i
个像素
x
i
和
j
个点
p
j
位于同一个实例的不同位置,但具有相同的语义。
但是,InfoNCE 损失会试图将它们推开,这是不合理的,并且会损害下游任务的性能
[51]
。
鉴于此,我们提出了一种语义一致性正则化,它利用 CLIP 的语义信息来缓解这个问题。
具体来说,我们通过遵循现成的 MaskCLIP
[61]
方法(图
3
)生成密集的像素-文本对
{
x
i
,
t
i
}
i
=
1
M
,其中
t
i
是从 CLIP 的文本编码器生成的文本嵌入。
请注意,像素-文本映射无需任何额外的训练即可从 CLIP 中免费获得。
然后,我们将像素-文本对转换为点-文本对
{
p
i
,
t
i
}
i
=
1
M
,并利用文本语义来选择对比学习的正负点样本。
目标函数如下:
其中
t
i
∈
c
表示
t
i
是由
c
类名生成的,而
C
是类数。
D
表示标量积运算,而
τ
是一个温度项 (
τ
>
0
)。
除了语义一致性正则化之外,我们还考虑了图像像素特征如何帮助正则化 3D 网络。
自然的替代方法是直接将点特征及其在嵌入空间中的对应像素拉入。
但是,图像像素的噪声分配语义和不完美的像素-点映射阻碍了下游任务的性能。
为此,我们提出了一种新颖的语义引导的空间-时间一致性正则化,通过对局部空间和时间内的点施加软约束来缓解这个问题。
图 4
:
图像像素到点的映射(左)和语义引导的融合特征生成(右)的示意图。
我们在
S
秒内建立图像
I
和时间一致的LiDAR点云
{
P
k
}
k
=
1
K
之间的网格对应关系,并为单个网格生成语义引导的融合特征。
{
x
^
i
k
,
p
^
i
k
}
i
=
1
,
k
=
1
M
^
,
K
和
{
f
n
}
n
=
1
N
都被用来执行时空一致性正则化。
具体来说,给定一个图像
I
和时间一致的LiDAR点云
{
P
k
}
k
=
1
K
,其中
K
是在
S
秒内扫描的次数。
注意,图像与点云
P
1
的第一帧匹配,具有像素点对
{
x
^
i
1
,
p
^
i
1
}
i
=
1
M
^
。
我们通过校准矩阵将点云的其余部分注册到第一帧,并将它们映射到图像(图
4
)。
因此,我们在短暂的时间
{
x
^
i
k
,
p
^
i
k
,
t
i
k
}
i
=
1
,
k
=
1
M
^
,
K
内获得了所有像素点文本对。
接下来,我们将整个拼接后的点云分成规则的网格
{
g
n
}
n
=
1
N
,其中时间一致的点位于同一个网格中。
我们通过以下目标函数对单个网格内的时空一致性约束进行强加:
其中
(
i
^
,
k
^
)
∈
g
n
表示像素点对
{
x
^
i
k
,
p
^
i
k
}
位于第
n
个网格中。
{
f
n
}
n
=
1
N
是一个由以下公式表示的语义引导跨模态融合特征:
其中
a
i
^
k
^
和
b
i
^
k
^
是由以下公式计算出的注意力权重:
其中
λ
是温度项。
实际上,本地网格
g
n
内的那些像素和点特征被限制在动态中心
f
n
附近。
因此,这种软约束减轻了噪声预测和校准误差问题。
同时,它对时间一致的点特征施加了时空正则化。
3.2.3
可切换自训练策略
我们将损失函数
ℒ
S
_
i
n
f
o
和
ℒ
S
S
R
结合起来,对整个网络进行端到端训练,其中 CLIP 的图像和文本编码器主干在训练期间被冻结。
我们发现,这种方法只有在用于
ℒ
S
_
i
n
f
o
和
ℒ
S
S
R
的像素点特征
{
x
i
,
p
i
}
i
=
1
M
和
{
x
^
i
k
,
p
^
i
k
}
i
=
1
,
k
=
1
M
^
,
K
来自不同的可学习线性层时才有效。
在此基础上,我们进一步提出了一种有效的策略来提高性能。
具体来说,在 3D 网络的对比学习经过几个 epoch 后,我们随机切换配对图像像素的伪标签和点的预测标签之间的点伪标签。
由于不同的模态网络学习不同的特征表示,它们可以过滤掉由噪声伪标签引入的不同类型的错误。
通过这种可切换操作,误差流可以被相互
[29]
减少。