欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。 |
ADAS Laboratory
点击上方 蓝字 关注 智驾实验室
将激光雷达点云特征和图像特征融合到统一的鸟瞰视图(BEV)空间中,已成为自动驾驶中三维目标检测的广泛应用方法。然而,这些方法受限于多模态特征过高的压缩度。
尽管有些工作探索了在密集 Voxel 空间中的特征融合方法,但它们在 Query 生成方面面临高计算成本和效率低下问题。为解决这些问题,作者提出了一种双域同构融合网络(Dual-Domain Homogeneous Fusion,简称DDHFusion),该网络利用BEV域和 Voxel 域的优势,同时缓解各自的缺点。
具体而言,首先使用LSS及作者提出的语义感知特征采样模块将图像特征转换至BEV和稀疏 Voxel 空间,这可以通过过滤掉不重要的 Voxel 显著减少计算开销。
在特征编码方面,作者设计了两种网络用于BEV和 Voxel 特征的融合,并引入新颖的跨模态 Voxel 和BEV Mamba块来解决特征错位问题,从而实现高效且全面的场景感知。
输出的 Voxel 特征被注入到BEV空间中,以补偿因高度压缩导致的三维细节损失。在特征解码阶段,在BEV域实现了一个渐进 Query 生成模块,以减轻由于特征压缩和小物体尺寸造成的 Query 选择中的假阴性问题。最后,一个渐进解码器可以逐级聚合丰富上下文的BEV特征以及几何感知的 Voxel 特征,从而确保更精确的信心预测和边框回归。
在NuScenes数据集上,DDHFusion实现了最先进的性能,进一步的实验也证明了它相对于其他同构融合方法的优越性。
自主驾驶已成为一个高度活跃的研究领域,随着深度学习模型的整合而迅速发展。在其关键技术中,三维目标检测在实现安全高效的驾驶规划方面发挥着至关重要的作用。当前的自主系统中,激光雷达和摄像头被视为环境感知的重要传感器。激光雷达利用激光回波技术以点云的形式捕获精确的三维环境信息,而摄像头通过捕捉可见光生成富含纹理信息的图像。借助激光雷达和摄像头互补的优势,基于融合的目标检测器在准确性和鲁棒性方面一直优于单传感器版本。
然而,多传感器特征融合并非易事,因为相机数据与激光雷达数据之间存在固有的异质性。许多现有工作[1]-[6]试图通过向原始点云或 Voxel 中添加图像特征来丰富这些数据。然而,这种方法会在相机到激光雷达投影过程中导致语义信息损失,因为只有少量的图像特征被保留下来,从而导致在点较少的区域检测性能下降。近期研究表明[7]-[12],同构融合策略积极地将图像特征转换为与激光雷达特征共享的表示空间。这些方法利用对称网络架构充分利用了多模态互补性,同时减轻了单传感器故障造成的性能下降。
一种常用的方法[7]-[9],如图1(a)所示,采用Lift-Splat-Shoot (LSS)将图像特征投影到统一的BEV平面,并与LiDAR特征进行拼接。该方法非常高效,成熟的技术可以直接应用于BEV特征融合和 Query 生成。对于 Query 生成,基于样本中心的标签分配和Top-K选择策略被广泛使用。
然而,这种方法也存在两个局限性:
如图1(c)所示,已探索在统一的 Voxel 空间中进行融合,以保留三维几何细节并利用高维特征交互来增强空间感知能力,同时避免信息压缩。
尽管从理论上讲,基于BEV的融合不如这种方法优越,但该范式仍面临几个挑战:
1)计算负担:将表示为密集 Voxel 的特征进行融合需要大量内存和计算资源,使得在大规模驾驶场景中难以部署。
2) Query 生成难题:根据,与BEV域相比, Voxel 域中的前景背景不平衡问题更严重且维度更高,这使得标签分配和输入依赖的 Query 生成更加复杂。采用随机初始化的3D可学习 Query ,并结合解码器中的局部3D可变形注意力机制,这会减慢训练收敛速度并限制模型对潜在实例的定位能力。
3)特征错位:在 Voxel 域中,特征错位的问题变得更加严峻。计算约束迫使这些方法依赖于3D卷积在有限感受野内进行局部特征融合,这阻碍了在更大区域内的特征对齐。
在本研究中,作者提出了一种新颖的检测框架——双域同构融合网络(DDHFusion),该框架克服了BEV和 Voxel 融合领域各自的局限性,同时充分利用了它们的优势。如图1(d)所示,BEV领域负责Query生成,而 Voxel 领域则提供几何感知特征。
为了清晰起见,所提出的算法分为三个步骤:
总结而言,主要贡献如下:
在共享的鸟瞰图(BEV)空间中进行融合是自主驾驶中3D目标检测的一种突出方法。这一过程中一个关键步骤是将图像特征转换到BEV空间。早期的工作[15]提出了一种自动校准方法:将图像特征投影到预定义的密集3D Voxel 中心,通过回归偏移进行调整,并分配给相应的 Voxel 。随后,这些特征会沿着高度方向进行压缩,从而生成BEV特征。在此基础上,[16]引入了距离注意机制,以细化中间 Voxel 特征沿距离维度的分布。
最近,LSS[17]因其视图变换能力而广受欢迎。该方法基于深度估计将特征投影到3D锥形结构上,然后通过池化操作映射到BEV平面上。然而,深度估计的不准确性通常会导致LiDAR和图像BEV视图之间的对齐错误。为解决此问题,[18]利用对比学习进行特征对齐,而[19]和[20]则采用了语义引导的光学流估计或互变形注意机制进行显式对齐。此外,[21]和[20]通过边缘感知的LiDAR深度图或局部对齐操作来提高深度估计的准确性。
与前述方法中的局部融合操作不同,作者的方法在模态内部和跨模态之间建立全局关系,从而实现有效的特征对齐,并获得更加全面的场景感知。
与BEV同质融合相比,将图像特征转换到 Voxel 域并将其与LiDAR Voxel 融合可以避免由高度压缩引起的信息损失。此外,在解码过程中引入多模态 Voxel 特征会导致更好的回归精度。文献[22]和[23]将每个像素上的图像特征反投影到具有深度完成的虚拟点上,然后将它们转换成 Voxel ,并通过 Voxel 池化融合精细粒度的多模态特征。文献[24]使用图像中2D实例 Mask 周围的最近邻匹配生成虚拟点。
文献[25]在此基础上引入了k近邻匹配,并引入门控模态感知卷积来在不同粒度上融合摄像机和LiDAR的语义和几何特征。尽管这些基于虚拟点的方法主要解决了LiDAR点云的稀疏性问题,但它们需要额外的深度完成或高分辨率实例分割网络。这导致了显著的训练成本,并且这些任务所需的标签往往难以获取。相比之下,文献[12]通过采用类似于LSS的算法绕过了额外网络的需求。
它首先将图像特征分配给预定义的密集 Voxel ,然后使用类别基础的深度图加权它们。文献[26]去除了深度加权步骤,并引入了附加的门控机制以实现灵活的融合。然而,密集的 Voxel 表示带来了显著的计算开销。在近期的工作中,文献[27]仅在LSS的中间 Voxel 空间中使用元素级融合,随后的特征传播发生在BEV域中。
在作者的工作中,作者采用稀疏 Voxel 表示来节省计算资源。此外,基于Mamba的网络HVF促进了多粒度全局特征融合。
状态空间模型(SSMs)[28]-[30]通过表示系统在每个时刻的内部状态来描述动态系统。随着深度学习的进步,SSMs被集成到神经网络中,以实现更高效的灵活推理。[31]通过引入高阶多项式投影算子有效地捕捉序列中的长期依赖性,将历史信息压缩到低维状态空间中。基于[29]的结构化状态空间模型S4 [28]通过结构化的状态转换矩阵增强计算效率和建模能力。
在S4的基础上,[32]引入了输入特定的状态转换机制,显著提高了表达能力和效率。由于其线性复杂度,Mamba在计算机视觉领域得到了广泛应用。例如,[33]将图像展开为1D序列,并提出了一种双向Mamba模块来进行全面的特征学习。[34]进一步将此方法扩展到四向扫描,揭示了图像中更丰富的空间关系,并对Mamba的线性注意力进行了理论分析。Mamba还应用于3D任务,如点云分类[35]、3D目标检测[36]-[38]和语义补全[39]等。例如,[36]使用无簇Voxel Mamba模块在整个场景中扩展感受野,而[39]则将局部自适应重排序整合进Mamba模块以增强局部信息提取。
与这些用于3D任务的单模态架构不同,作者将Mamba扩展到了多模态架构,进一步挖掘了其潜力。
DDHFusion 的工作流程如图2所示。首先,多视角图像和LiDAR点云分别通过各自的网络进行特征提取。接着,这些特征被转换为稀疏 Voxel 、 和BEV表示 。然后,引入了两个同构融合网络,在各自的领域内执行特征融合。输出的 和 在稀疏高度压缩之后传递给BEV融合网络。处理过BEV主干网络后,生成的BEV特征用于逐步 Query 生成。这些 Query 随后被输入到包含BEV解码器和 Voxel 解码器的逐步解码器中,用于分类和边界框回归。在本节中,作者将从语义感知特征采样、 Voxel 同构网络、BEV同构网络、逐步 Query 生成以及逐步解码器等方面详细介绍DDHFusion的工作原理。
使用密集的 Voxel 描述整个驾驶场景具有高度的冗余性。首先,许多 Voxel 对应的是空旷的空间,其中没有物体存在。其次,在自动驾驶场景中,前景物体通常只占据场景整体的一小部分区域。这种冗余不仅消耗了大量的计算资源,还会使模型的信息提取能力分散到大量不相关的区域,从而妨碍特征学习。
受[41]的启发,作者提出了如图3所示的SAFS模块,用于有选择地生成重要的图像 Voxel 。首先,图像主干提取的图像特征 通过一个卷积块生成深度图。类似于LSS,这些深度由离散的bins表示。另一个分支预测语义分割 Mask 。在训练过程中,作者将地面真相框内的点投影到图像平面上,以生成稀疏监督的分割标签。
作者将整个三维空间划分为 Voxel ,数量为 。根据[12],作者将高度范围 设置为激光雷达 Voxel 的两倍,以从图像中获取更多的纹理细节。然后,作者将 Voxel 中心投影到图像平面,并使用双线性插值收集深度分数 和语义分数 。筛选出同时满足两个分数阈值的 Voxel 。
在训练初期或某些人群场景中, 的数量可能过于庞大。因此,作者设定了一个上限 ,如果数量超过该上限,则应用最远点采样以保留仅 个 Voxel 。最后,作者将图像特征分配给 ,并乘以相应的深度分数,从而获得 Voxel 特征 。
在HVF中,作者采用了一种3D U-Net架构来融合激光雷达 Voxel 和图像 Voxel 。如图4所示,网络由两个并行分支组成,分别处理 Voxel 特征,且每个尺度都进行特征融合。由于深度估计的不确定性以及校准误差, 和 往往存在空间上的不对齐问题。先前的工作 [12], [22], [25] 仅通过连接或局部门控机制在同一位置或3x3x3邻域内融合 Voxel 特征,但未能解决对齐问题,并限制了网络全面感知多模态信息的能力。受Mamba在基于激光雷达的3D目标检测 [36], [37] 方面最近成功启发,作者提出了基于同一模态和跨模态的Mamba Voxel 模块(IV-Mamba和CV-Mamba),用于每个尺度的特征融合。在IV-Mamba中,作者根据[36]中的方法,将 Voxel 重新排列为基于三维希尔伯特曲线的1D序列。然后使用离散SSM模型处理整个序列:
这里,
其中,
在CV-Mamba中,作者直接在统一的3D空间中结合多种模态的 Voxel 。值得注意的是,图像 Voxel
根据[34]中的理论证明,前进-回退的Mamba是一种特殊的全局Transformer版本,使得非对齐特征能够匹配其对应的其他模态特征。然后,不同模态的输出 Voxel 被分离并返回到各自的分支,在那里通过稀疏3D卷积进行下采样。值得注意的是,在大多数现有工作中,融合具有不同分布的特征[22]、[23]、[25]、[42]需要进行最近邻搜索或分组等操作,而作者设计的简洁的全局合并-分割操作使融合过程更加高效和直观。交替使用IV-Mamba和CV-Mamba有效地缩小了模态间的差距,并减轻了每种模态退化数据对融合特征的负面影响。
最后,逆稀疏卷积用于将 Voxel 特征上采样回原始尺度。输出特征
在同质BEV融合网络中,来自同质 Voxel 网络的特征
如图4所示,作者还应用了基于Mamba的融合范式,该范式包括内部模态和跨模态BEV Mamba(IB-Mamba和CB-Mamba)模块,用于生成高质量的BEV特征。首先,将拼接后的特征输入到IB-Mamba中,使网络能够全局感知模态特异性信息。随后,按照[34]中提出的SS2D块,应用四方向交叉扫描展开图像,这有助于构建全面的空间关系。然后,如公式2和3所示,在所有四个方向上同时进行SSM操作。经过LayerNorm后,输出被与
在CB-Mamba中,为了进一步在密集BEV空间对齐多模态特征并适应性融合它们,作者将原本设计用于单模态任务的SS2D操作扩展到跨模态融合。如图4所示,SSM计算的参数源自连接张量,指导图像和LiDAR特征的全局校正。作者使用以下公式描述SSM参数化。
其中,上标
这使得网络能够自主地偏好更可靠的模态,从而在复杂场景中提高适应性。
在CB-Mamba之后,BEV输出张量被送入BEV主干网络以进行进一步的特征传播,生成
在DDHFusion中,BEV分支用于高效地生成目标候选。尽管许多先前的工作试图通过范围视图[44, 45]或稀疏3D空间[46, 47]来实现这一点,前者受物体遮挡的影响,后者常常依赖于中心投票策略,这对其点云或 Voxel 不均匀分布非常敏感。相比之下,在BEV域中生成 Query 相对简单。首先,作者从
为了应对这一挑战,[48] 提出了一种多阶段 Query 生成策略。该策略将 Query 分为不同难度 Level ,并采用残差块在不同 Level 之间激活BEV特征,以专注于更难的目标实例。在本工作中,作者简化了这一方法,将 Query 分为两类:简单的 Query
|
黄三角早报 · 好消息!2000辆共享单车即将落户东营! 7 年前 |
|
格隆汇 · 天然气行业策略:能源今年这里最火 7 年前 |
|
未读 · 如何把自己修炼得有「情调」? | 活动预告 7 年前 |
|
每日经济新闻 · 《我的前半生》最大的意义是什么?马伊琍吃透剧本后给出答案… 7 年前 |
|
言安堂 · 言安堂要推行会员积分制啦! 7 年前 |