专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
南方能源观察  ·  解市 | 区域现货出清为何更加匹配广东负荷特性 ·  昨天  
南方能源观察  ·  《南方能源观察》电子刊上线!订阅方式戳→ ·  昨天  
国家能源局  ·  新华社丨我国发电装机容量达34亿千瓦 ·  昨天  
南方能源观察  ·  浅析未来三年我国电力需求增长的新动能 ·  2 天前  
北极星太阳能光伏网  ·  国家能源局重磅发文! ·  2 天前  
51好读  ›  专栏  ›  智驾实验室

TrajSSL 轨迹增强半监督三维物体检测 !

智驾实验室  · 公众号  ·  · 2024-10-28 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

半监督三维目标检测是一种常见的策略,用于绕过手动标注大规模自动驾驶感知数据集的挑战。伪标注方法是半监督学习的一个常用策略,采用教师-学生框架,其中机器生成的伪标签与少量手动标记的数据集结合用于训练。在这项工作中,作者通过利用驾驶场景中的长期时间信息来改善伪标签质量。

具体而言,作者利用预训练的物体预测模型在伪标记数据上生成物体轨迹,以便进一步提高学生模型训练。

作者的方法通过两种不同的方式改进了伪标签质量:

首先,通过在多个动作预测输出帧之间建立一致性,抑制错误的阳性伪标签。

其次,通过直接将预测物体轨迹插入伪标记场景,补偿错误的阴性检测。在nuScenes数据集上的实验证明了作者的方法的有效性,在很多设置下提高了标准半监督方法的表现。

I Introduction

3D目标检测是自动驾驶感知堆中的关键任务。虽然许多LiDAR点云方法能够实现出色的性能,但训练这些模型需要大规模的标注点云数据集。相比之下,获取标注的2D图像数据较为容易,而标注3D点云目标检测任务则是一项专业的技能;因此,人工标注既费时又费钱。因此,获取人类标注的3D检测数据对于训练出用于自动驾驶车辆的强大3D目标检测器来说是一个重大的制约因素。

半监督学习(SSL)或称为“在少量标注数据集与大量未标注数据集相结合的情况下进行学习”,是一种流行的机器学习模型标签有效的训练框架。半监督学习的一种方法称为自训练或伪标签,使用预训练的教师模型在大量未标注数据上生成伪标签,然后在一个混合的标注/伪标注数据上训练学生模型。对于2D目标检测和3D目标检测,都已经提出了各种伪标签工作的方法。

所有这些工作都是为了应对伪标签的关键挑战:在训练过程中,什么是最大限度地从高质量的伪标签中获得监督,同时最小化来自低质量伪标签的监督?

为了回答这个问题,作者需要一个可衡量的伪标签质量度量。在目标检测的背景下,一个简单的做法就是使用教师模型的检测自信度作为伪标签质量的代理。然而,对于一个在有限数据集上训练的教师模型,检测自信度通常与伪标签与 GT 标签的真正协议很弱相关。其他工作试图使用一些形式的 consistency度量,如增广视图之间的 consistency[13]、不同模态之间的 consistency[10]、或已标注数据上伪标签与 GT 标签的一致性[15]作为伪标签质量度的衡量标准。通过建立一个改进的伪标签质量度量,这些方法试图在识别可能的假阳性伪标签的同时,不因误识别有效的伪标签而无意中创建新的假阴性。

为了在具有内在联系的自动驾驶环境中的目标检测中,利用时间序列输入提高伪标签的监督效果,从而提高伪标签的质量,因此作者可以将伪标签与未来的运动轨迹相结合。作者利用轨迹预测模型作为自训练/伪标签方法的基础,并将生成的伪标签转换为运动轨迹,然后将这些运动轨迹作为预测模型的输入。

利用作者的预测模型,作者根据跟踪的伪标签生成未来运动轨迹,然后将这些预测的物体按固定的时间顺序分到相应的未来帧上,以生成在未标注数据集中的物体预测,这样每个未标注帧都包含一组基于不同上下文的伪标签预测。在学生训练阶段,作者使用这些虚拟物体的方式有两种不同的方式。

首先,为了识别出强大的伪标签,作者通过测量虚拟物体与伪标签之间的IoU重叠程度进行衡量,即如果预测轨迹与伪标签重叠,则反映出一定的时序一致性,因此作者通过重叠次数对来自伪标签的训练目标进行缩放。

其次,作者通过在伪标签中插入未匹配的虚拟物体,以在训练过程中增加额外的监督,来弥补假阴性检测。图1显示了在训练过程中,利用预测轨迹增强教师模型伪标签的效果。

作者在nuScenes自动驾驶数据集上验证TrajSSL,因为它与开源的3D检测和轨迹预测模型兼容。

通过在各种实验设置中运行实验,作者证明了与先前的半监督3D目标检测方法相比,mAP绝对改进。

II Related Work

3D Object Detection

基于点云的3D目标检测存在几种宽泛的战略。基于点云的方法直接将点云摄入,以自下而上的方式将点分组,以实现基于PointNet[26]特征提取器的层次学习。基于 Voxel 的策略从点云生成正则化的 Voxel 网格,以实现与标准神经网络结构(如CNNs和Transformer)的兼容性。VoxelNet[27]使用PointNet类似架构将点云编码为 Voxel 特征,然后由3D CNN区域 Proposal 网络处理。

Point-Pillars[28]以类似的方式操作,但是将空间离散化为具有无穷高度的2D柱以实现更快的编码。CenterPoint 采用 Voxel 为基础的 Backbone ,同时使用 Anchor-Free 检测方法执行检测。

基于 Transformer 的方法,如 SWFormer 和Flatformer 用位移窗口Transformer 替代3D CNN Backbone 。PV-RCNN 使用混合的点- Voxel 方法来利用两种特征提取方法的优势。

多帧目标检测器如 MPPNet 和3DAL 使用两阶段精炼,其中来自多个帧的输入被用于改进边界框估计。

Trajectory Prediction

决策辅助机器人/自动驾驶汽车在导航动态场景时需要意识到场景中其他代理的运动。轨迹预测利用其他代理的历史运动与场景级信息(如高清地图)相结合来预测未来代理的轨迹。轨迹预测存在多种方法,通常依赖于神经生成模型来生成未来物体的轨迹。

Agentformer 同时模型了场景中代理之间的时空和社会交互,使用条件变分自编码器(CVAE)生成模型生成轨迹。虽然有一些研究已经探讨了在标签有效的方式对预测模型进行训练 ,但这个方向仍一般未受探索。

Semi-supervised Object Detection

最初的半监督目标检测工作主要集中于二维检测任务。STAC[8]强烈增强学生模型的输入,以强制伪标签之间的增强一致性。无偏老师[5]使用指数移动加权(EMA)在学生训练期间更新老师模型。近年来,也有更多的工作研究了半监督三维目标检测。

SESS[42]利用三个一致性损失来强制输入数据的扰动变体之间的协议。3DIoUMatch[11]利用IoU估计模块得分作为置信度阈值过滤器。

DetMatch[10]采用多模态方法,使用相机模型伪标签与激光雷达模型伪标签之间的协议来过滤伪标签。HSSDA[13]使用改进的强数据增强方案,结合伪标签质量层次监督来提高训练。

与作者的工作类似,UDA的回放也采用伪标签的时间细化,使用跟踪插值/外插模块在无监督域自适应的背景下提高伪标签质量。

III Method

在本节中,作者介绍作者提出的TrajSSL方法,并详细描述了如何使用这些轨迹输出来生成合成轨迹以及使用半监督训练的学生模型。作者的方法概述如图2所示。

作者将在这个回答中保持专业和简洁。在描述论文时,作者遵循学术英语的风格,保留原文的表达方式。同时,作者在确保语法和句子通顺的同时,提高语言的精炼度,使读者能够更轻松地理解论文内容。在翻译过程中,作者将尽力保留原文的信息和结构,同时尽可能地使用简体中文。

Problem Definition

在半监督设置中,作者可以利用两种数据集:一组手标记样本 和一组 未标注 样本 。通常情况下,作者只能为数据中的较少一部分进行标记,意味着

对于基于点云的3D目标检测,作者的输入数据样本包括一个包含有序点 的点云列表 ,其中 表示笛卡尔3D坐标系, 表示激光雷达传感器测量的反射率。每个样本标签包括一组边界框 ,其中每个框 包含一个类别描述和7个局部参数:中心3D位置,框的大小,和框的方向。

Teacher-Student Framework

TrajSSL是基于常用的师生范式的自监督学习(监督学习)。在作者的实验中,作者使用CenterPoint[1]和PointPillars[28]作为检测器模型,但任何现成的3D检测器都兼容这种范式。

首先,教师模型 预在标记数据样本 上权值收敛。在学生训练期间,教师模型对未标签的数据集进行推理,生成伪标签。然后,学生模型 在标记样本 和伪标记样本 上进行训练。在学生模型训练期间,使用EMA改进教师检测器:

其中 是EMA动量, 分别是教师和学生的模型参数。

Trajectory Generation

在教师预训练阶段,作者还额外预训练一个轨迹预测模型供下游训练使用。对于作者而言,作者选择采用Agentformer [34]作为作者的运动预测模型,尽管作者的方法与任何现成的模型兼容。Agentformer接受两组输入:一组是每个代理的历史,即 ,涵盖最多 个时间步长,以及可选的HD场景级语义图。作为输出,Agentformer为每个输入代理生成一组未来轨迹预测,即







请到「今天看啥」查看全文


推荐文章
南方能源观察  ·  浅析未来三年我国电力需求增长的新动能
2 天前
北极星太阳能光伏网  ·  国家能源局重磅发文!
2 天前
电驹  ·  电驹招聘资深汽车编辑
7 年前
孔明湿兄  ·  内涵图 | 赶紧来几个女友玩玩
7 年前
家庭祷告室  ·  神所看重的三个方面
7 年前