原标题:
OMR
: Occlusion-Aware Memory-Based Refinement for Video Lane Detection
论文链接:https://arxiv.org/pdf/2408.07486
代码链接:https://github.com/dongkwonjin/OMR
作者单位:韩国高丽大学 三星高级技术研究院
论文思路:
本文提出了一种用于视频车道检测的新算法。首先,本文为当前帧提取特征图,并检测遮挡车道的障碍物潜在掩码(latent mask)。然后,本文通过开发一个遮挡感知的基于记忆的优化(OMR)模块来增强特征图。该模块以当前帧的障碍物掩码和特征图、前一输出以及记忆信息作为输入,在视频中递归处理这些信息。此外,本文应用了一种新颖的数据增强方案来有效地训练OMR模块。实验结果表明,所提出的算法在视频车道数据集上优于现有技术。
主要贡献:
-
所提出的OMR模块通过利用障碍物掩码和记忆信息改进当前帧的车道检测结果。
-
本文引入了一种新颖的视频车道检测训练策略,以更稳健地识别车道。
-
所提出的算法在视频数据集上产生了出色的车道检测结果。
论文设计:
车道检测旨在定位道路场景中的车道,这对于实现自动驾驶或辅助人类驾驶至关重要。然而,由于附近车辆的遮挡或恶劣天气条件,车道可能不明显,导致检测困难。在车道检测方面,早期方法试图通过提取低级特征来寻找可见的车道线索 [1, 7, 8, 42]。最近,许多技术已经被开发出来,以利用深度特征处理隐含车道。一些方法采用语义分割框架 [9, 10, 21, 24, 40],将每个像素分类为车道类别或非车道类别。还进行了几次尝试来提取连续的车道信息,包括曲线建模 [5, 16, 19, 29, 31] 和关键点关联 [25, 32, 37]。与此同时,基于锚点的车道检测器 [12, 13, 28, 34, 41] 也被提出。这些方法预定义了一组车道锚点,然后通过对每个锚点的分类和回归来检测车道,确保车道的连续性。然而,所有这些方法都是基于图像的检测器,独立处理每一帧,因此它们通常无法提供时间上稳定的检测结果,特别是在某些车道被物体遮挡时,如图1所示。
图1:道路场景示例,其中一些车道部分被多个物体遮挡。可见的车道和遮挡物分别用白线和橙色多边形表示。
视频车道检测器也已经被开发出来。这些技术利用过去的信息来检测当前帧中的车道,这有助于更可靠地识别隐含的车道。大多数方法 [27, 33, 38, 39, 44] 采用图2(a)中的框架。这些
视频检测器
提取若干过去和当前帧的特征,聚合这些特征,并使用混合特征在当前帧中检测车道。然而,它们不会在未来的帧中重用这些混合特征。最近,一种递归视频车道检测器(RVLD) [11] 被提出。如图2(b)所示,RVLD仅通过运动估计和特征优化来增强当前帧的特征,并递归地将当前帧的状态传递给下一帧。RVLD在性能上优于现有的图像和视频车道检测器,但由于其严重依赖当前帧中的信息,因此可能会不准确地检测车道。特别是当当前帧中的车道被附近的车辆严重遮挡时,RVLD往往会产生不可靠的检测结果。
本文提出了一种新颖的视频车道检测器,结合了遮挡感知的基于记忆的优化(OMR)模块。如图2(c)所示,它利用潜在的障碍物掩码和记忆信息来增强当前帧的特征图。首先,本文从当前帧中提取特征图并检测潜在的障碍物,这些障碍物会妨碍车道的可见性。然后,本文通过OMR模块优化特征图,该模块将当前帧的障碍物掩码和特征图、之前的输出以及记忆信息作为输入。此外,本文开发了一种有效的数据增强方案,以稳健地训练OMR模块。实验结果表明,所提出的算法在VIL-100 [39] 和 OpenLaneV [11] 数据集上优于现有技术。
图2:视频车道检测的三种方法。(a) 中,提取当前帧
和过去
帧的特征图并混合,以优化
的特征图。(b) 中,仅使用单一的前一帧来增强
的特征图,并递归地将增强后的特征传递给后续帧。(c) 中,所提出的算法利用障碍物和记忆信息,通过OMR模块改进
的特征图。需要注意的是,灰色、蓝色、绿色和橙色的框分别代表帧内特征、优化特征、记录的记忆和潜在障碍物掩码。
图3:所提出算法的概览,其执行四个步骤:编码、潜在障碍物检测、OMR和解码。在此示例中,最右侧的车道部分被附近的车辆遮挡,因此编码后的特征存在缺陷,使车道检测变得困难。然而,所提出的算法可以通过有效地优化遮挡区域内的特征,精确地检测隐含的车道。如虚线红框所示,本文可以看到所提出的OMR模块将遮挡车道的特征增强为更具辨识度的特征。
图4:编码器和解码器的架构:(a) 给定一张图像
,使用主干网络提取三个最粗糙的特征图。在匹配它们的通道维度和分辨率后,它们被编码成一个组合特征图
。(b) 从特征图
中估计车道概率图
。然后,通过应用可变形卷积,从
中预测车道系数图
。
图5:潜在障碍物检测和OMR的框图:(a) 从编码特征图
中预测潜在障碍物的二值概率图
。通过对
进行阈值处理,确定二值障碍物掩码
。为了获得其真实值
,采用了语义分割算法
SegFormer
[35]。(b) 在OMR中,将四个输入图
、
、
和
聚合为
。然后,使用组合特征图
,通过 ConvLSTM [26] 更新
为
。接着,将
添加到
中以将其优化为
。蓝色框表示一系列带有批量归一化和 ReLU 函数的2D卷积操作。
图6:障碍物掩码
、特征图
、概率图
及其增强版本
和
的可视化。在当前帧
中,一些车道部分被附近的车辆遮挡。
的可见车道部分具有足够的辨识度来识别它们。相比之下,遮挡部分的特征信息不够丰富。因此,
在遮挡区域的估计效果较差。然而,在
和
中,使用所提出的OMR模块,遮挡区域的车道特征和车道概率得到了忠实的恢复。为了可视化这些特征图,进行了最小-最大归一化。
图7:(a) 在训练集中,每张图像通过从KINS数据集中叠加新物体(如车辆或骑自行车的人)进行合成。(b) 此外,通过在帧之间线性变化这些物体的大小和位置,重新生成视频序列。由于从KINS中提取的是完整形状的物体,因此生成的图像显得自然。
实验结果:
图8:在VIL-100数据集上车道检测结果的比较。
图9:在OpenLane-V数据集上车道检测结果的比较。
图10:障碍物掩码
、特征图
、概率图
及其增强版本的可视化。