专栏名称: 点云PCL
公众号将会推送基于PCL库的点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群,而且组建github组群,有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。
目录
相关文章推荐
知产库  ·  DeepSeek商标提前1天被抢先申请,抢注 ... ·  3 天前  
知产宝  ·  著作权 | ... ·  4 天前  
51好读  ›  专栏  ›  点云PCL

RoboSense: 用于多传感器低速自动驾驶的大规模数据集与基准测试

点云PCL  · 公众号  ·  · 2024-09-11 10:00

正文

文章:RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving

作者:Haisheng Su, Feixiang Song Cong Ma Panpan Cai Wei Wu Cewu Lu1

编辑:  点云PCL


欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。 文章仅做学术分享,如有侵权联系删文。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系[email protected] 文章未申请原创 侵权或转载 联系微信cloudpoint9527。

摘要


鲁棒的物体检测和跟踪在任意视角下是具有挑战性的,但对自动驾驶技术的发展至关重要。随着无人驾驶车辆需求的增长,近场场景理解成为低速自动驾驶领域的重要研究课题。由于驾驶条件的复杂性和近距离障碍物(如盲点和高遮挡)的多样性,近场环境的感知能力仍然不如远距离环境。为了进一步提升无人驾驶车辆的智能能力,本文构建了一个基于三种主要传感器(相机、激光雷达和鱼眼镜头)的多模态数据采集平台,支持灵活的传感器配置,以实现对自车的动态视角,无论是全局视图还是局部视图。同时,建立了一个大规模多传感器数据集,名为RoboSense,以促进近场场景理解。RoboSense包含超过13.3万条同步数据,标注了140万条3D边界框和ID,涵盖了完整的360°视角,形成了21.6万条轨迹,跨越7.6千个时间序列。其近场障碍物的标注量是以往单车数据集(如KITTI和nuScenes)的270倍和18倍。此外,我们定义了一种新的匹配标准,用于近场3D感知和预测指标。基于RoboSense,我们制定了6个热门任务,以促进相关研究的未来发展,并提供了详细的数据分析和基准测试。

图1. RoboSense数据集的一个示例:数据包括相机、鱼眼镜头、激光雷达和鸟瞰视图(BEV)上的标注3D边界框和占用描述,其中相同的目标在不同设备和时间戳中关联有唯一的ID。

主要贡献


RoboSense包含总共133K+帧同步数据,涵盖了7.6K个时间序列,涉及6个主要场景类别(即景点、公园、广场、校园、街道和非机动车道)。此外,基于3种不同类型的传感器,我们标注了1.4M个3D边界框及其跟踪ID,其中超过30%的目标位于10米以内。我们通过从鸟瞰视图(BEV)角度关联连续帧和不同传感器中的相同ID,形成每个代理的全局轨迹。基于构建的数据集,我们制定了六个热门的自动驾驶任务和基准测试,包括:

1. 多视角3D检测;

2. 激光雷达3D检测;

3. 多模态3D检测;

4. 多目标3D跟踪(3D MOT);

5. 动作预测;

6. 占用预测。

同时RoboSense也支持多任务端到端训练方案,用于联合优化评估。总的来说,主要贡献有四点:

  • 据我们所知,RoboSense是首个为无人驾驶低速场景研究构建的数据集,特别关注近场场景理解。

  • 在133K+帧同步的多传感器数据上标注了1.4M个3D边界框。超过30%的目标位于靠近自车的近场区域。每个目标都关联了一个唯一ID,形成了总共216K条轨迹,分布在7.6K个时间序列中,覆盖了6个主要场景类别。

  • 构建了多种传感器布局,提供了相机、鱼眼镜头和激光雷达的灵活配置,并收集了用于场景理解的多传感器同步数据,从机器人视角进行分析。

  • 制定了6个热门任务及其基准,以促进近场环境感知和预测的研究发展。

内容图集


图 2. 数据采集平台的传感器设置和坐标系示意图

图 3:不同热门数据集中标注对象分布的比较

表 2:RoboSense 数据集的详细信息,包括不同场景中昼夜数据的比例

表 3:RoboSense 传感器规格

表 4:在 RoboSense 验证集上使用 Center-Point (CP) 距离和 Closest Collision-Point (CCP) 距离作为匹配标准的 3D 检测结果,其中相对比例 α\alphaα 分别设为 5%(LiDAR)和 10%(图像)

表 5:在 RoboSense 验证集上,不同距离范围(米)下的感知任务(3D 检测和多目标跟踪,MOT)使用不同传感器布局的研究。AB3DMOT被采用为 3D MOT 基准模型。C:摄像头,F:鱼眼,L:LiDAR,V:视角。

图 4:平均精度与匹配函数的关系。CD:中心距离。CDP:中心距离比例。CCDP:最近碰撞距离比例。IOU:交并比。我们按照 KITTI [9] 设置车辆、骑行者和行人的 IOU 为 [0.7, 0.5, 0.5]。根据 nuScenes,CD 设置为 2 米,TP 指标的 CDP/CCDP 为 5%

表 6:RoboSense 验证集上的运动预测结果

表 7:在 RoboSense 验证集中使用 4F 传感器作为输入的占用预测结果

总结


为了促进低速场景下的自动驾驶,RoboSense 构建了一个现实世界的大规模多传感器数据集,包含 140 万个 3D box和 21.6 万个轨迹,标注在 13.3 万个同步帧上。该数据集旨在专门研究近场障碍感知和预测模型,无论是模块化训练还是联合优化。我们的数据集包含 7600 个序列,这些序列是从不同地点手动选择的,涵盖了各种天气条件和交通密度。在未来的工作中,将会扩展更多任务及相应基准,例如运动规划,以支持基于 RoboSense 数据集的端到端自动驾驶应用,并探索联合优化对模块化训练可能带来的额外好处。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++:基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案

基于稀疏语义视觉特征的道路场景的建图与定位

自动驾驶中基于激光雷达的车辆道路和人行道实时检测(代码开源)

用于三维点云语义分割的标注工具和城市数据集

更多文章可查看: 点云学习历史文章大汇总

SLAM及AR相关分享

TOF相机原理介绍







请到「今天看啥」查看全文