专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

纽约大学和 May Mobility 合作推出 MARS 数据集,支持多代理、多次穿越和多模态 !

智驾实验室  · 公众号  ·  · 2024-07-31 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

大规模数据集推动了基于人工智能的自动驾驶车辆研究的近期进展。然而,这些数据集通常是从单一车辆一次性通过某个地点收集的,缺乏多代理交互或对同一地点的多次穿越。这类信息可能导致自动驾驶车辆的感知、预测和规划能力的变革性提升。

为了弥补这一差距,作者与自动驾驶公司 May Mobility 合作,推出了 MARS 数据集,该数据集统一了支持多代理、多次穿越和多模态自动驾驶车辆研究的环境。更具体地说,MARS是通过一队自动驾驶车辆在特定地理区域内行驶时收集的。每辆车都有自己的路线,不同的车辆可能会出现在附近的位置。

每辆车都配备了激光雷达和全景RGB摄像头。

作者在MARS中精心策划了两个子集:一个促进多辆车同时出现在同一地点的协作驾驶,另一个通过多辆车异步穿越同一地点来实现记忆回顾。

作者在地点识别和神经重建方面进行了实验。更重要的是,MARS引入了新的研究机会和挑战,如多次穿越的3D重建、多代理感知和无监督物体发现。

作者的数据和代码可以在https://aitce.github.io/MARS/找到。

1 Introduction

自动驾驶技术有望从根本上提高道路安全性和交通效率,近年来通过人工智能技术取得了显著进展。大规模、高质量的实时数据对人工智能驱动的自动驾驶车辆(AVs)提高其感知和规划能力至关重要[1, 15]:AVs不仅可以从标注数据集中学习检测目标[16],还可以基于过去的驾驶记录生成数字孪生,以创建安全关键情景[17]。

开创性的KITTI数据集[1]为检测和跟踪等任务设立了最初的基准。自其推出以来,已有许多数据集被提出以促进自动驾驶的发展;见表1。

两个具有代表性的数据集是nuScenes[8]和Waymo数据集[9],它们引入了从相机和测距传感器收集的多模态数据,提供了360度全景视野的场景理解。这些数据集将关注点从KITTI的单目相机转移开,受到了视觉和机器人学领域的广泛关注。

现有的驾驶数据集通常关注地理和交通多样性,但没有考虑到两个实际维度:多代理(协作)和多遍历(回顾)。协作维度强调了位于同一空间区域内的多辆车之间的协同作用,促进它们在感知、预测和规划方面的合作。回顾维度使车辆可以通过利用之前访问同一地点的视觉记忆来增强其3D场景理解。融合这些维度可以解决在线感知的感测能力有限和离线重建视角稀疏等问题。然而,现有的数据集通常是由单个车辆在一次特定地理位置的遍历中收集的。为了推进自动驾驶车辆的研究,尤其是在协作和回顾维度上,研究界需要一个更全面的、真实驾驶场景下的数据集。为了填补这一空白,作者推出了Open MARS 数据集,它提供了多代理、多遍历和多模态记录,如图1所示。所有记录都来自May Mobility1在密歇根州安娜堡运行的自动驾驶车辆。 多代理。 作者部署了一支自动驾驶车队在一个指定的地理区域内导航。这些车辆可以同时处于同一地点,允许通过车辆间通信进行协作3D感知。

多遍历。 作者在相同的空间区域内捕获了多次遍历,这些遍历在不同的光照、天气和交通条件下进行。每次遍历可能遵循独特的路线,覆盖不同的驾驶方向或车道,从而产生多条轨迹,提供了3D场景的多样化视觉观察。 多模态。 作者为自动驾驶车辆配备了具有360度全景视野的RGB相机和激光雷达。这套全面的传感器套件能够实现多模态和全景场景理解。

作者在位置识别和神经重建方面进行了定量和定性实验。更重要的是,MARS为视觉和机器人学社区引入了新的研究挑战和机遇,包括但不限于多代理协作感知和学习、重复遍历下的无监督感知、持续学习和多代理或多遍历的神经重建及新颖视图合成。

2 Related Works

自动驾驶数据集。 高质量的数据集对推进人工智能驱动的自动驾驶研究至关重要[18, 19, 8]。开创性的KITTI数据集在机器人感知和地图绘制领域引起了广泛关注。从那时起,大量数据集被提出,通过解决多模态融合、多任务学习、恶劣天气和密集交通等挑战,推动了该领域的发展。近年来,研究行人提出多智能体协作以摆脱单一智能体感知的限制,例如频繁的遮挡和远距离稀疏性。以前在整理多智能体数据集方面的努力通常受到模拟环境的限制[33, 34]。最近的V2V4Real[13]支持现实世界中的车辆间协同目标检测和跟踪,但双相机设置不足以进行环视感知。另一个相关数据集Ithaca365[12],在不同光照和天气条件下对同一路线的重复穿越进行记录,但只用前视相机收集数据。一些工作收集多穿越数据用于地图变化,如Argoverse 2数据集[4],而一些近期工作基于Argoverse 2建立3D重建方法或模拟器[35, 36]。

还有几项工作专注于长期视觉定位[37],例如牛津RobotCar数据集[38]和CMU Seasons数据集[39]。然而,这些数据集没有考虑多智能体驾驶的情景。为了填补这一空白,作者的MARS数据集提供了具有全景相机视角的多智能体、多穿越和多模态驾驶记录;见表1。值得注意的是,May Mobility车队的持续和动态运营使作者的MARS数据集在规模和多样性方面脱颖而出,具有单个地点数百次穿越的记录,并支持多达四辆车的协同驾驶,从而创下了穿越次数和智能体数量的记录。

视觉地点识别。 在计算机视觉和机器人学领域,视觉地点识别(VPR)具有重要意义,它基于视觉输入实现特定地点的识别[40]。具体来说,VPR系统通过将给定的 Query 数据(通常是图像)与现有的参考数据库进行比较,并检索与 Query 最相似实例来工作。对于在GPS不可靠环境中运行的基于视觉的机器人,这种功能至关重要。VPR技术通常分为两类:传统方法和基于学习的方法。传统方法利用手工制作的特征[41, 42]生成全局描述符[43]。然而,在实际应用中,_外观变化_和_有限视角_会降低VPR性能。为了解决_外观变化_的挑战,基于学习的方法利用深度特征表示[44, 45, 46]。除了基于图像的VPR,还提出了基于视频的VPR方法[47, 48, 49],通过视频剪辑实现了更好的鲁棒性,缓解了_有限视角_的问题。此外,CoVPR[50]引入了协同表示学习用于VPR,在多智能体协作与地点识别之间架起了桥梁,并通过利用合作者的信息解决了_有限视角_的问题。除了2D图像输入,PointNetVLAD[51]探索基于点云的VPR,为地点识别提供了一个独特的视角。在本文中,作者评估了单一智能体VPR和协同VPR。

自动驾驶中的NeRF。 神经辐射场(NeRF)[52]在无边界驾驶场景中最近受到了很多关注,因为它不仅促进了高保真神经模拟器[17]的发展,还实现了对环境的高分辨率神经重建[53]。关于新颖视图合成(NVS),研究行人已经解决了可扩展的神经表示与局部块[54, 55]、具有组合场的动态城市场景解析[56, 57]以及具有目标感知场的全景场景理解[58, 59]等挑战。关于神经重建,研究行人已经实现了基于激光雷达点云和图像输入的体面重建[60, 61]。同时,在无需依赖激光雷达的多视图隐式表面重建方面也做了许多努力[53]。基于NeRF的现有方法受到有限视觉观察的限制,通常依赖于沿狭窄轨迹收集的稀疏相机视角。利用额外的相机视角(无论是来自多个智能体还是重复穿越)丰富视觉输入并提高NVS或重建性能,还有很大的潜力尚未挖掘。

3 Dataset Curation

Vehicle Setup

表2:每辆车的 May Mobility传感器套件规格

图2:用于数据收集的车辆平台 传感器设置

传感器设置。 _May Mobility_的车队包括四辆丰田塞纳,每辆车上都安装有一个激光雷达、三个窄角度RGB相机、三个广角度RGB鱼眼相机、一个IMU和一个GPS。这些传感器具有不同的原始输出频率,但所有传感器数据最终都会同步采样到10Hz。为了节省存储空间,相机图像会被降采样。这些传感器的详细规格列于表2中。一般来说,激光雷达位于车辆前部顶部。三个窄角度相机位于车辆的前方、前左方和前右方。三个鱼眼相机位于车辆的后部中央、左侧和右侧;见图2。IMU和GPS位于车辆顶部中央。这些传感器的显式外部参数以旋转和平移的形式表示,将传感器数据从其自身的传感器坐标系变换到车辆的自坐标系。对于每辆车上的每个相机,作者提供了相机的内在参数和失真系数。失真参数是通过AprilCal校准方法[62]推理得出的。

坐标系。 有四个坐标系:传感器坐标系、自坐标系、局部坐标系和全局坐标系。传感器坐标系代表一个以单个传感器中心为原点的坐标系。自坐标系代表一个以自车后轴中心为原点的坐标系。局部坐标系代表一个以自车当日轨迹起点为原点的坐标系。全局坐标系是世界坐标系。

Data Collection

目前,May Mobility专注于微服务交通,在各个方向和顺序上运行固定路线的穿梭车辆。全程超过20公里,涵盖住宅、商业和大学校园区域,在交通、植被、建筑和道路标记方面具有多样化的环境。车队每天在下午2点到8点之间运营,因此涵盖了各种光照和天气条件。总的来说,May Mobility独特的运营模式使作者能够收集多遍历和多代理自动驾驶数据。

多遍历数据收集。 作者在驾驶路线上总共定义了67个位置,每个位置覆盖一个直径为50米的圆形区域。这些位置涵盖了不同的驾驶场景,如交叉口、狭窄街道和长直路,以及各种交通条件。每天在不同时间,每个位置都会从不同方向进行遍历,确保对这一区域在物理和时间上的全面感知。作者通过车辆的GPS位置确定它是否正在穿越目标位置,并在车辆位于50米半径区域内时收集数据。遍历被过滤,使得每次遍历的时长介于5秒到100秒之间。

多代理数据收集。 作者数据集的一个亮点是,作者提供了真实世界的同步多代理协同感知数据,实现了极其详细的空间覆盖。根据车辆的GPS坐标,作者提取了30秒的场景,在这些场景中,两辆或更多的自主车辆在9秒以上的时间里彼此距离不足50米,集体在同一时间从不同角度提供对同一区域的覆盖性感知。对于遭遇持续时间不足30秒的场景,将遭遇部分置于30秒持续时间的中心,前后分别填充相等时间的非遭遇部分(例如,20秒的遭遇部分通过在前后各增加5秒扩展为一个30秒的场景)。这种遭遇可以在地图的任何地方发生,构成了如图7所示的沿直线道路尾随和交叉口相遇等场景。作者的方法还确保了场景中的至少一辆车辆在30秒内行驶超过10米。

Dataset Statistics

图4: 多穿越子集统计。

图5: 每个地点的穿越次数和帧数。

图3: 多代理子集统计。

图6: 日景和夜景的比例。

多穿越子集包含了从2023年10月4日至2024年3月8日共26个不同天数的数据,其中4天有雨。作者总共收集了5,757次穿越,包含每个摄像头超过140万帧的图像以及360度激光雷达点云数据。在67个地点中,有48个地点超过20次穿越,23个地点超过100次穿越,6个地点超过200次穿越。平均每次穿越含有250帧(25秒),大多数穿越包含100到400帧(10到40秒)。所有地点穿越和帧的具体分布分别展示在图4和图5中。多代理子集包含了从2023年10月23日至2024年3月8日共20个不同天数的数据。作者收集了53个持续30秒的场景,每个场景稳定地包含297到300帧,总计超过15,000帧的图像和激光雷达点云数据。在53个场景中,52个涉及两辆车,1个涉及三辆车。每对自车之间的距离在每一帧都进行了分析。分布表明,大多数遭遇发生在两辆车彼此距离小于50米的情况下,如图3所示。

4 Benchmark Task and Model

Place Recognition

问题定义。 作者考虑一个由M张图像组成的 Query 集 和一个由N张图像组成的参考数据库 。在这个任务中,目标是给定 中的 ,找到 中的 ,使得 在同一位置捕获。

评估指标。 作者采用K位置的召回率作为VPR的评估指标。对于一个 Query 图像 ,作者选择与 之间Top-K余弦相似度的K个参考图像。如果选出的图像中至少有一个是在 S米范围内捕获的(本文中S=20),那么作者将其计为正确。K位置的召回率计算为正确计数总数与M的比值。

基准模型。 作者采用NetVLAD [44],PointNetVLAD [51],MixVPR [45],GeM [63],Plain ViT [64],和CoVPR [50]作为基准模型。

  • NetVLAD 由基于CNN的主干网络和NetVLAD池化层组成。NetVLAD用可学习的软分配替代了VLAD [43]中的硬分配,以提取的特征作为输入,生成全局描述符。
  • MixVPR 由基于CNN的主干网络和特征混合器组成。将主干网络的输出展平为






请到「今天看啥」查看全文