聊聊自动驾驶中的自动标注

自动驾驶之心 · 公众号 · · 2024-11-05 07:30

正文

作者 | dengdan 编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/113749235

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『数据闭环』 技术交流群

本文只做学术分享，如有侵权，联系删文

背景介绍

有监督学习需要大量的标注数据。可以完全由人工标注，也可以由机器自动标注，也可以人机混合。这三种模式分别称为人工标注，自动标注和半自动标注。

自动驾驶中，感知系统对标注需求很大，尤其是障碍物感知。其自动标注主要可利用不同传感器之间的相互标注。

障碍物感知有三大主流传感器: 激光雷达（LiDAR），相机（Camera），毫米波雷达（Radar）。从自动标注的数据流向来看，一般是依靠激光雷达和毫米波雷达给相机标注，因为感知系统输出给下游的障碍物都需要提供三维信息：3D位置和3D尺寸，最不济也需要给出障碍物在BEV上（缺少高度方向）的大小和位置。

激光雷达输出的点云及其检测模型输出的障碍物都具有完整的3D信息，即中心点位置和长宽高。

毫米波直接输出BEV上的障碍物信息，有2D BEV位置有速度，但缺少高度。

相机的分辨率很高，具有丰富的语义信息。2D的视觉障碍物检测也是一个很热门且比较成熟的研究方向。要相机独立给出具有3D信息的障碍物结果，通常可以通过以下几种途径进行3D恢复:

纯粹的2D检测结合一些先验几何假设。例如假设框的下边中心点为障碍物的地面接触点，且地面是平的，然后根据相机外参确定地面高度，以此即可估计出障碍物的3D位置。最后根据类别取一个先验长宽高，作为其大小。这类方法的缺点是鲁棒性差。
检测模型不仅预测障碍物的2D信息，还预测一些3D信息，例如角度，尺寸，深度，投影关键点等，然后通过一些几何约束及必要的先验恢复其3D信息。这类方法很多，预测对象非常多样，也是当前3D视觉检测的热门研究方向。
Pseudo LiDAR。对相机图片进行深度估计，得到稠密的伪点云，然后用点云模型进行障碍物检测。这类方法的关键和难点在于准确的深度估计。

下面通过几个例子来说明可以尝试的自动标注方法。

自动驾驶之心+自动驾驶之薪+具身智能之心知识星球 | 双十一活动限时7折

激光雷达提供点云级别的深度信息

将激光雷达的点云投影到相机上，可以得到像素级别的稀疏深度图。这个深度图可以用来训练纯视觉的单目深度估计模型。基于无监督学习的纯视觉单目深度估计是一个很有潜力的研究方向。直觉上，结合激光雷达的数据理论上有助于模型正确收敛。

若同时使用双目和激光雷达，这个深度图也可以转换为视差的真值。

激光雷达点云投影相机主要存在的问题包括:

稀疏，且距离稍远就没有点云了。
遮挡。相机和激光雷达安装位置肯定有相互偏移，激光雷达能看到的相机不一定能看到。所以可能存在被遮挡的点，它本身虽然位于相机的FOV内，但投影到相机上却没有对应的像素，错误的像素深度就这样产生了。相机和激光雷达间的安装偏移越大，出现遮挡的概率和程度越高。

聊聊自动驾驶中的自动标注

正文

背景介绍

激光雷达提供点云级别的深度信息

请到「今天看啥」查看全文