自动驾驶汽车仅依赖自我中心感知存在感知局限,往往无法检测到遮挡或远处的物体。协作式自动驾驶(CAV)看似是一个有前景的方向,但收集用于开发的数据并非易事。
这需要将多个配备传感器的 Agent 放置在现实世界的驾驶场景中,同时进行!因此,现有的数据集在位置和 Agent 方面都有限。
作者引入了一种新的 Agent 工具以解决问题,它能够根据现实世界的样本——自我驾驶汽车(ego-car)的感知数据,在驾驶场景中生成不同视角的逼真感知。
这种 Agent 具有巨大的潜力:它可以将任何自我驾驶汽车数据集转化为协作驾驶数据集,以扩大CAV的开发。
作者提出了第一个解决方案,结合了模拟协作数据和真实ego-car数据。作者的方法“转移你的视角”(Transfer Your Perspective,简称TYP)学习了一个条件扩散模型,其输出样本不仅逼真,而且在语义和布局上与给定的ego-car数据一致。
实证结果表明,TYP在辅助CAV设置方面非常有效。
特别是,TYP使作者能够用少量或无现实世界的协作数据对协作感知算法进行(预)训练,如早期和晚期融合,极大地促进了下游CAV应用。
1. 引言
在本文中,作者将探讨人工智能领域的最新发展,并分析其在不同应用场景中的影响。通过对现有文献的综述,旨在揭示AI技术面临的挑战以及未来可能的突破方向。同时,本文还将对AI技术在不同行业中的应用进行探讨,以期为我国AI产业的发展提供有益的参考。
以自我为中心的视角看待世界,自动驾驶汽车可能会变得“目光短浅”,限制了其在动态驾驶环境中的适当反应能力。例如,如果行人即将过马路,或者有其他车辆正在并入其车道,它应该减速或鸣笛。然而,这些行为取决于汽车检测交通参与者的能力,而这种能力可能会在交叉路口处被大型公交车或建筑物遮挡。仅仅在汽车上安装更多的传感器几乎无法解决这种遮挡问题。作者认为,自动驾驶汽车必须超越其以自我为中心的视角。
一种直观的方法是与观察场景不同角度的附近“ Agent ”进行协作,例如其他配备传感器的车辆或静态设备,如路边单元(RSU)。当它们共同训练以解决GPS误差和同步延迟问题时[84],协作感知已被证明可以显著提高每个 Agent 的感知精度,尤其是在检测遮挡或远距离物体方面。然而,收集协作感知的训练数据从来都不容易。与可以通过在道路上驾驶汽车简单地收集的单个 Agent 数据不同,协作数据需要多个 Agent 在同一驾驶场景中的同时存在。对于动态 Agent ,如车辆,需要精确的协调以确保它们在通信范围内。这些挑战限制了现有工作在规模和 Agent 数量(通常仅为两个)方面的进展。虽然可以通过游戏引擎利用模拟数据,但它们通常无法捕捉到现实场景的多样性。因此,作者提出问题:
能否以更少的努力获得用于学习协作感知的逼真数据,理想情况下与单一智能体数据获取一样容易?具体来说,鉴于已经收集了大量的单一智能体激光雷达数据,这些数据覆盖了各种驾驶环境,是否可以将每一份数据转化为协作感知数据,通过在同一场景中从不同的参考视角生成额外的点云来实现?
首先,这个问题可能看起来过于雄心勃勃,原因有三。首先,为了使协作感知有效,生成的点云必须提供自我驾驶汽车点云无法捕捉到的信息,例如对自我驾驶汽车不可见的遮挡表面。这形成了一个“鸡生蛋”的问题:如果自我驾驶汽车的点云是作者最初了解场景的唯一信息,作者如何推理出任何额外的信息?其次,为了训练目的,生成的数据必须真实。它应像位于参考视点的真实传感器一样,复制约束和数据模式,在遮挡区域不生成点,在远距离区域生成较少的点。最后但同样重要的是,在从参考视点和自我驾驶汽车视点都容易感知的区域,生成的数据应在布局和语义上与自我驾驶汽车的数据保持一致。表面上看,这似乎就像简单复制自我驾驶汽车的数据,但这样做将违反第二个要求。本质上,生成的数据应类似于从参考视点看到的点云,而不是自我驾驶汽车。
然而,在深入探讨这个问题后,作者认为通过三个关键洞见是可以实现的。首先,考虑到用于条件化的ego-car周围的语义信息,已有研究表明在生成逼真的点云方面取得了有希望的进展。这一点尤其令人鼓舞,因为大多数现有的单智能体数据集提供了3D物体标签,这些标签可以被翻译以获取围绕参考位置的语义信息。这进一步意味着,如果作者从参考视角可以看到它们,作者就可以生成从ego-car视角看到的遮挡物体表面。
其次,语义信息易于编辑:即使由于ego-car感知限制,转换后的物体图存在明显的空白区域,也可以手动添加物体框,使地图从参考视角看起来更加逼真。最后,在生成的数据需要满足两个物理约束的常见感知区域,作者可以利用基于计算图形和光学的模拟器。具体来说,作者可以使用两个视角的模拟数据来训练一个条件生成模型,将一个视角映射到另一个视角。
在基于这些洞察的基础上,作者提出了“转移你的视角”(TYP)这一新颖的研究问题及其首个解决方案,旨在从场景中的任何视角生成逼真的点云,条件是给定真实 ego 车的点云和语义标签。
TYP 假设可以访问以下两个数据集:
1)一个具有多个感知相同场景的不同视角的 Agent 的模拟协同驾驶数据集;
2)一个真实单 Agent 驾驶数据集;这两个数据集都进行了标注。作者的解决方案涉及一个条件潜在扩散模型[54]和专门的分阶段训练过程。在第一阶段,作者考虑单 Agent 场景,并仅使用真实数据,通过目标位置来条件化训练模型。这使得模型能够生成多样化和逼真的场景。作者用
表示学到的模型,其中
代表语义条件,
代表点云。
在第二阶段,作者引入模拟数据,学习如何将生成过程基于另一个 Agent 的数据进行定位,以便模型能够在给定 ego 车的数据的情况下生成语义一致的参考点云。作者学习了一个轻量级条件化模块,将
转换为
,其中
和
分别表示 ego 视角和参考视角。作者注意到
已经预先翻译,以围绕参考位置为中心。
在TYP(典型问题)中,一个挑战是真实数据与模拟数据之间的领域差距。由于传感器配置和放置的不同、数据收集环境以及模拟与真实之间的差距,两组点云数据不可避免地表现出不同的分布、模式和密度。为了解决这个问题,作者在两个训练阶段之间插入一个领域适应步骤。作者为模拟数据训练一个独立的编码器-解码器,同时施加约束以使模拟数据和真实数据的编码特征不可区分[67]。这一步骤允许作者在第二阶段在一个减少领域差异的空间中学习
。
一旦训练完成,作者将
与真实数据的编码器-解码器配对,以生成基于真实自动驾驶汽车的点云数据,从而能够在没有真实协作数据的情况下开发协作感知算法。更具体地说,给定一个真实自动驾驶汽车感知数据
和标签
,作者首先将其转换到参考位置周围,然后可选地将物体标签注入到
中,使其从参考视角来看更加真实。
作者广泛验证了TYP在多个数据集上的应用,都是在离线环境下进行的。实证结果表明,TYP在生成高质量参考数据以辅助协作感知发展方面具有显著效果。
具体来说,作者展示了仅通过模拟数据(例如,OPV2V [80])训练的条件扩散模型,已经可以将真实单一智能体数据集转化为类似真实的协作数据集。因此,可以在没有真实训练数据的情况下训练针对真实测试数据的协作感知算法。作者进一步通过在真实的单一智能体Waymo数据[63]和模拟的OPV2V数据[80]上训练TYP,生成了“ColWaymo”数据集,从而将其转化为协作数据集。在大型半合成ColWaymo数据上预训练的协作感知 Backbone 网络表现出卓越的迁移能力。它们显著提升了下游任务(例如,V2V4Real [81])中开发的协作感知,即使在多样本设置下也是如此。
总的来说,作者的主要贡献包括:
-
作者提出了一种新的研究方向,旨在助力协作感知的发展,能够从现实驾驶场景中的任何视角生成逼真的感官数据,从而将单一智能体数据集转化为协作数据集。
-
-
作者提出了TYP,这是一种包含中间域适应的二级训练方案,利用模拟的协作数据和真实的单一智能体数据学习生成模型。
-
大量实验表明,TYP在协助实现不同场景下的协作感知方面具有显著效果。
2. 相关研究工作
协同自动驾驶(CAV)带来了显著的好处,包括通过共享传感器信息,扩大感知范围,以检测超出单一车辆视野范围内的物体。尽管如此,由于在多种环境中部署多个装备车辆的复杂性和成本,收集大规模的真实世界数据集对CAV来说仍面临重大挑战。现有的数据集通常存在局限性,这限制了CAV研究的范围。
例如,OPV2V[80]和V2X-Sim[35]依赖于CARLA模拟器[14]的模拟,允许控制多个车辆 Agent 的场景,但缺乏真实世界的多样性。另一方面,V2V4Real[81]提供了真实世界的数据,但它只包含两个协作 Agent ,这限制了更复杂的多 Agent 交互的探索。同样,DAIR-V2X[86]数据集也提供了包括车辆到基础设施(V2I)和V2V的真实世界数据,但它主要关注V2I场景,且协作车辆的数量有限。
为了克服当前的局限性,作者提出一个新的研究方向——基于自我视角生成真实点云。三维生成。各种工作已经探索了三维场景生成,如LiDARGen[94]、R2DM[44]、LiDM[51]、UltraLiDAR[77]和RangeLDM[25]。
此外,LidarDM[95]和Text2LiDAR[73]研究了条件场景生成,前者依赖于手工制作的地图布局,后者依赖于文本输入。然而,所有这些方法都专注于自我中心生成。作者提出一个新的CAV研究方向,旨在基于自我 Agent 的真实点云生成真实且一致的场景——这一领域仍基本未被探索。扩散模型。扩散模型最近在高质量激光雷达点云和图像的生成建模方面取得了进展。
去噪扩散概率模型(DDPMs[24])优于传统的生成对抗网络(GANs[21]),并进一步提高了激光雷达生成的效率。在自动驾驶应用中,如RangeLDM[25]、LidarDM[95]和LiDARGen[94]等方法应用扩散模型进行真实的激光雷达场景生成。在本论文中,作者利用其生成能力来研究作者提出的问题。
3. 转换您的视角(TYP)
本文提出了一种新的研究方向,旨在推进协作自动驾驶(CAV)技术的发展:通过在同一场景中从不同视角生成LiDAR点云,以减少收集CAV数据所需的繁琐劳动。
作者首先在第3.1节中定义了所提出的问题。在第3.2节中,作者讨论了输入数据的表示,包括点云和语义信息。第3.3节概述了解决该问题所开发的流程。最后,在第3.4节中,作者展示了如何将这一能力应用于只有 Token 自我 Agent 的数据集,例如Waymo开放数据集(WOD)[63]。
3.1. 问题设定
考虑到自我感知 Agent 的感知数据
,作者的目标是构建一个模型
,用于生成新的感知数据
,这些数据是从通信范围内的不同参考位置和视角观察到的。在这里,
代表一个激光雷达点云。这项任务面临诸多挑战,包括两个视角之间可能存在的信息间隙、需要在可共同感知区域内进行对齐,以及确保生成数据的真实性,这些问题在第1节中已有讨论。
为了应对这些挑战,作者通过引入语义信息扩展了原始问题,例如目标边界框,表示为
。作者假设存在这种信息,并围绕自我 Agent 表示为
。
例如,大多数现有的单 Agent 数据集都提供了目标标签。这种语义信息可以通过诸如交通回放器[22]等工具轻松转换和编辑,成为
,成为弥合自我与参考视图之间信息差距的关键,使得参考 Agent 能够“看到”自我视野之外的物体和表面——这是自动驾驶汽车(CAV)的核心概念。此外,通过将生成的点云与目标位置对齐,这一扩展有助于作者实现扩大CAV发展的目标。本质上,生成的
对可以灵活地与
一起在各种CAV应用中使用,例如直接用于训练协同感知算法。
在接下来的章节中,作者将描述如何对
和
进行编码,随后介绍作者解决问题的方法。
3.2. 表示与嵌入
在人工智能领域,表示(Representations)和嵌入(Embeddings)是构建模型和理解数据的重要概念。表示通常指的是数据在模型中的内部表示形式,它能够捕捉数据的特征和结构。而嵌入则是将这种表示转化为数值向量,使得模型能够处理和分析这些数据。
在神经网络中,嵌入技术尤其关键,它可以将高维数据(如图像、文本或音频)映射到低维空间,便于模型进行计算和学习。通过这种方式,嵌入不仅简化了数据的处理,还增强了模型对数据中潜在关系的识别能力。
激光雷达。点云在连续3D空间中的表示方法有多种,例如坐标
和z) [48, 49, 58],范围图像 [42, 48, 72],以及 Voxel 化 [31, 40, 82, 91]。为了更好地与从物体位置的空间控制相匹配,作者遵循[78]的方法,使用预定义的网格 Voxel 化点云并记录 Voxel 占用情况。[78]还强调,这种表示方法可以自然地处理点密度变化,并对激光雷达生成的影响最小, Voxel 化过程中会有一些精度上的权衡。简而言之,作者通过
来表示点云。
为了避免3D卷积的计算成本,作者将
转换为鸟瞰图(BEV)图像,将高度维度
视为2D卷积的特征通道。这种方法已在自动驾驶感知领域得到广泛应用[10, 77, 87],允许使用基于2D图像的模型架构和算法。
语义信息。由于点云被表示为BEV图像,因此在BEV中表示目标位置也是直观的。作者通过仅考虑3D边界框的x和y坐标来创建二进制目标图,得到
。(作者可以通过包括类别信息来进一步扩展它。)特征嵌入。根据文献[54],作者使用向量量化变分自动编码器(VQ-VAE)[69]对输入张量进行编码,该编码器包括一个编码器
,一个在空间网格上的特征向量量化函数
,以及一个解码器
。形式上,通过编码器得到
,将每个
维度的向量映射到一个可学习的码以获得
,并使用解码器生成输出
,其中
和
是特征图的空间分辨率,是从
和
下采样得到的,
是通道数。
VQ-VAE模型通过最小化以下内容进行端到端的训练:
在本文中,
和
分别表示停止梯度操作和重建损失。由于作者的点云表示是二进制占用空间
,因此二元交叉熵是
的一个自然选择。然而,由于点云的稀疏性,这会导致损失不均衡。为了解决这个问题,作者采用了Focal Loss(Focal Loss,FL)[56]。
在本文中,
表示 Voxel 索引,
表示 Voxel 的总数。
对于物体位置
,作者采用相同的方法训练一个独立的VQ-VAE模型
和
。在接下来的小节中,作者使用
和
作为特征嵌入来学习潜在扩散模型。
3.3 通过生成转移你的视角
作者通过条件生成模型对第3.1节中定义的分布
进行建模,并在两个阶段对其进行训练。作者假设有
元组作为训练数据。第3.4节和第4节中详细介绍了训练数据的准备过程。
在第一阶段,作者的目标是通过提供最少的条件,即仅提供边界框,而不对场景进行进一步约束,来最大化生成能力。这促使模型以高灵活性生成
。第二阶段,在此基础上,作者将自我 Agent 的点云作为额外的线索融入模型,并确保生成的点云与自我 Agent 点云在语义和布局上的一致性。综合这两个阶段的训练过程,使得学习到的
模型能够在两个视图之间通常可见区域之外的区域生成感知数据。模型和训练过程如图2所示。
更重要的是,这种方法使作者能够利用现有的 Token 单智能体数据集,如KITTI[20]、NuScenes[7]和Waymo Open Dataset(WOD)[63],因为第一阶段训练只需以自我为中心的激光雷达点云及其相应的语义信息(参见第3.4节)。只有在第二阶段,才需要从自我和参考智能体看到的
数据对。
以下是对每个训练阶段的详细阐述。阶段1:带有语义信息的生成。本阶段的目标是使模型具备在空间条件下生成点云的强大能力,为下一阶段做准备。如第3.2节所述,点云和物体位置通过VQVAEs[69]进行嵌入,分别表示为
和
。类似图像的特征图使作者能够采用现有的2D图像生成算法[12, 24, 30]。在本文中,作者应用了最受欢迎的生成模型之一,潜在扩散模型(LDM)[54],用于条件生成
。LDM试图通过迭代去噪从高斯分布中最初采样的变量来建模数据分布。其目标为: