0. 论文信息
标题:UAV3D: A Large-scale 3D Perception Benchmark for Unmanned Aerial Vehicles
作者:Hui Ye, Rajshekhar Sunderraman, Shihao Ji
机构:Georgia State University、University of Connecticut
原文链接:https://arxiv.org/abs/2410.11125
代码链接:https://huiyegit.github.io/UAV3D_Benchmark/
1. 导读
配备有照相机的无人驾驶飞行器(UAV)被用于许多应用中,包括航空摄影、监视和农业。在这些应用中,鲁棒的目标检测和跟踪对于无人机的有效部署至关重要。然而,现有的无人机应用基准主要是为传统的2D感知任务设计的,这限制了需要对环境进行3D理解的真实世界应用的发展。此外,尽管最近在单无人机感知方面取得了进展,但单无人机平台的有限视野严重限制了其在长距离或闭塞区域的感知能力。为了应对这些挑战,我们引入了UAV3D,这是一个旨在推进无人机3D和协作3D感知任务研究的基准。UAV3D由1,000个场景组成,每个场景有20帧,在车辆上有完全注释的3D边界框。我们提供了四种3D感知任务的基准:单无人机3D目标检测、单无人机目标跟踪、协同无人机3D目标检测和协同无人机目标跟踪。
2. 引言
由于其卓越的机动性,无人机(UAV)在推动计算机视觉领域的众多应用方面得到了广泛部署并发挥着至关重要的作用,这些应用包括交通监控、精准农业、灾害管理和野生动物监测等,相比传统固定视角的监控摄像头,无人机提供了更高的效率和适应性。另一方面,诸如ImageNet和MSCOCO等大规模公共数据集和基准测试集的可用性,极大地加速了包括图像分类、目标检测、目标跟踪、语义分割和实例分割在内的各种计算机视觉任务的进展。
在基于视觉的机器人系统中,三维感知发挥着至关重要的作用,它使这些系统能够处理二维感知能力之外的复杂任务。尽管对于无人机而言,三维视觉仍是一项相对较新的技术,但它能够捕获三维环境中物体的完整维度数据。目前,大多数无人机数据集主要针对二维感知设计,这限制了需要三维理解周围环境的真实世界应用的发展。为了弥合这一差距,我们引入了UAV3D数据集,以推动无人机三维感知领域的研究。
此外,尽管单无人机感知技术近期取得了进步,但单无人机平台的有限视角极大地限制了其在远距离或遮挡区域的感知能力。一个前景广阔的解决方案在于无人机之间的通信,这是一种促进无人机之间协作信息交换的前沿技术。尽管最近出现了几个针对自动驾驶的协作感知数据集,但专门针对无人机的成熟且组织良好的协作感知数据集仍存在明显差距。由于成本高且涉及大量人力,同时操作多台无人机来构建这样的数据集极具挑战性。因此,我们专注于开发模拟数据集UAV3D,以推动无人机协作感知领域的研究。
为了创建UAV3D数据集,我们使用了CARLA,这是一种流行的自动驾驶开源模拟器,以及AirSim来模拟飞行的无人机。无人机上安装的相机传感器被同步记录,以促进协作感知。此外,我们还提供了包括边界框、车辆轨迹和语义标签在内的多种注释,以支持各种下游任务。
推荐课程:
零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]
。
3. 效果展示
图1展示了UAV3D数据集的一个示例。为了更好地支持无人机多任务和多无人机感知研究,我们进一步为四个三维感知任务提供了基准测试,包括单无人机三维目标检测、单无人机目标跟踪、协作无人机三维目标检测和协作无人机目标跟踪。
过去几年,已经开发了几个数据集来推动自动驾驶和无人机领域的感知任务发展。UAVDT数据集包含100个视频序列,这些序列是从无人机平台在不同城市地点拍摄的超过10小时的视频素材中精选出来的。VisDrone数据集包含263个视频片段,这些片段由来自多个地点和天气条件的无人机挂载相机拍摄而成,共包含179,000帧和10,000张静态图像。然而,这两个基准测试集都是针对二维感知任务设计的小规模真实世界数据集。相比之下,我们的UAV3D是一个针对三维感知任务的大规模模拟数据集,包含50万张图像。Waymo Open数据集nuScenes数据集是两个公开的、大规模的、多模态数据集,包含用于自动驾驶的相机、雷达和激光雷达数据。我们的UAV3D包含1,000个场景,规模与nuScenes数据集相当。它还具有与nuScenes相同的格式,以提供注释和元数据,如校准、地图和车辆坐标。OPV2V、V2X-Sim和V2XSet是三个为V2X辅助自动驾驶设计的模拟多智能体感知数据集。OPV2V支持车对车场景中的多模态数据和多智能体协作感知。同时,V2X-Sim和V2XSet提供了来自路边单元(RSU)和多个车辆的多智能体传感器记录,使车对车和车对路边场景中的协作感知成为可能。我们的UAV3D使用与V2X-Sim相同的基线模型来评估无人机的协作感知任务。CoPerception-UAV是一个基于无人机的协作感知模拟数据集,包含在三座城镇和两个编队中,于三个不同高度捕获的131,900张同步图像。相比之下,我们的UAV3D包含了在四座不同城镇捕获的50万张图像,其规模大约是CoPerception-UAV的四倍。DAIR-V2X、V2V4Real、Rcooper、TUMTraf-V2X、HoloVIC和V2X-Real是六个大规模真实世界数据集,它们促进了以车辆为中心的自动驾驶协作感知,每个数据集都强调了不同的协作场景:DAIR-V2X中的车对基础设施协作、V2V4Real中的车对车协作、Rcooper中的车对路边协作、TUMTraf-V2X和HoloVIC中的车对基础设施协作,以及V2X-Real中的车对车和车对基础设施协作。相比之下,UAV3D是一个旨在支持以无人机为中心的协作感知的大规模模拟数据集,特别关注无人机之间的协作场景。相关数据集的比较总结在表1中。
4. 数据收集
CARLA-AirSim联合仿真。我们采用开源的CARLA和AirSim模拟器进行交通流模拟和数据记录。在CARLA中,
车辆会在整个城镇中随机生成并自由行驶。每个城镇(即Town 3、6、7和10)中都有数百辆(200辆)车辆活跃,这些城镇具有复杂的交通状况,如十字路口和T型路口。我们为每个城镇记录了250个日志文件,总计获得1000个场景。
飞行规划。我们在CARLA的Town 3、6、7和10中操作无人机,其中Town 10以其交通密集和极具挑战性的驾驶环境而著称。我们强调了城镇(Town 3和10)与郊区(Town 6和7)环境之间的差异,特别是在交通流、植被、建筑、车辆和道路标志方面。对于CARLA中的每个城镇,
我们设计了25条飞行路线,以覆盖从地图左下角到右上角的各种位置。
传感器设置。如图2所示,我们为每架无人机配备了五个RGB摄像头,以捕捉RGB图像和语义图像。其中四个摄像头分别面向前方、左侧、右侧和后方,俯仰角为-45度,而底部摄像头则提供鸟瞰视图。图像的分辨率为800x450像素。CARLA使用虚幻引擎(UE)坐标系,其中x轴向前,y轴向右,z轴向上,返回局部空间中的坐标。而AirSim则采用东北下(NED)
坐标系,其中北方向与虚幻引擎的x轴对齐。我们调整了AirSim中的传感器坐标,使其与CARLA中的车辆坐标保持一致。
无人机集群编队。如图3所示,我们将五架无人机配置成十字形编队,分别位于前方、左侧、右侧、中心和后方,每架无人机与中心无人机的距离均为20米。无人机集群在保持编队的同时,在60米的高度执行感知和协作任务。
全局坐标系。nuScenes数据集使用东-北-上(ENU)坐标系作为其全局框架。ENU系统是一个右手笛卡尔坐标系,其中X轴指向东,Y轴指向北,Z轴指向上。该系统为nuScenes中不同场景中的物体和车辆位置提供了一个稳定的全局参考框架。相比之下,利用虚幻引擎4(UE4)的UAV3D数据集则采用左手笛卡尔坐标系,该坐标系通常用于实时渲染和3D图形环境中。在该系统中,X轴向前,Y轴向右,Z轴向上,遵循左手定则。表2展示了nuScenes和UAV3D之间全局坐标系的比较。
5. 实验结果
6. 限制性 & 总结
现实世界的数据集通常包含更为复杂的条件,如定位误差、传感器同步问题以及智能体之间的通信延迟。相比之下,模拟数据集得益于仿真环境受控且理想的设置。显然,真实数据集与模拟数据集之间存在领域差异,当使用模拟数据训练的模型应用于现实世界的应用时,性能会下降。缓解领域差异的典型方法是采用领域自适应技术,即在模拟数据集上训练模型,并使模型适应现实世界的应用。据我们所知,出于安全、隐私考虑以及数据标注成本高昂的原因,针对无人机的真实3D数据集尚未公开。我们可以将自动驾驶领域的Xu等人、Li等人提出的模拟到真实世界的领域自适应算法应用于UAV3D数据集。此外,为了评估UAV3D上的感知任务,我们从自动驾驶领域选择了三个著名的基线模型:BEVFusion、DETR3D和PETR。最近,已有一些用于自动驾驶中3D目标检测的高级模型被提出,如StreamPETR、Sparse4DV2、BEVNeXt和SparseBEV。这些模型可以应用于UAV3D,并有望取得更好的性能。我们将这部分探索留作未来的工作。
我们介绍了UAV3D——一个从CARLA-AirSim联合仿真环境中收集的大规模无人机3D感知基准数据集。与先前发布的无人机数据集相比,UAV3D包含了最多的RGB图像和3D边界框标注,并支持广泛的3D感知任务。为促进无人机相关研究,我们对自动驾驶领域的几个最新的感知模型进行了基准测试,使其适用于单无人机目标检测和跟踪以及协同无人机目标检测和跟踪。整个基准测试,包括UAV3D数据集和源代码,均公开可用,旨在推动基于无人机的3D感知研究。未来的工作包括在数据收集中融入多样化的时间和天气条件(白天和夜晚、晴天、雨天和阴天),模拟延迟问题,并探索更先进的3D感知模型。我们相信,我们的工作将激发许多相关研究,包括但不限于多智能体强化学习和协同学习系统。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球