专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
中国交建  ·  一起来看!中交集团用超级工程守护蔚蓝未来 ·  13 小时前  
中国城市规划  ·  地方动态 | ... ·  昨天  
中国城市规划  ·  天下事 | ... ·  昨天  
51好读  ›  专栏  ›  智能车情报局

性能提升44%!浙大提出LiCROcc:Radar Occ的春天来了?

智能车情报局  · 公众号  ·  · 2024-08-26 14:00

正文


生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的 2024全球AI芯片峰会 将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。目前,来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等40+企业的嘉宾已确认演讲或讨论。扫码申请免费票或购票参会~



👀


导读

今天为大家分享浙大&上海AI Lab等团队最新的工作—LiCROcc!使用Lidar和Camera提升Radar Occ的性能,在nuScenes-Occupancy数据集提升22.9%、44.1%和15.5%。


01

写在前面&笔者的个人理解


语义场景补全(SSC)是自动驾驶感知中至关重要的技术,经常面临天气和照明变化的复杂性。现有策略包括融合多模态信息以增强系统的鲁棒性。雷达作为3D目标检测中重要的传感器,逐渐在自动驾驶应用中取代激光雷达,并且可以提供更鲁棒的感知替代方案。本文们专注于3D雷达在语义场景补全中的潜力,开创了跨模态细化技术,以提高对天气和照明变化的鲁棒性,并增强SSC性能。
在模型架构方面,本文提出了一种三阶段的紧密融合方法在BEV上实现点云和图像的融合框架。基于此基础设计了三个跨模态蒸馏模块—CMRD、BRD和PDD。我们的方法通过将激光雷达和相机的丰富语义和结构信息蒸馏到 radar-only(R-LiCROcc)和雷达-相机(RC-LiCROcc)的配置中,增强了性能。最后本文提出的LC-Fusion(教师模型)、R-LiCROcc和RC-LiCROcc在nuScenes-Occupancy数据集上取得了最佳性能,其中mIOU分别超过基线22.9%、44.1%和15.5%。
源码链接 :https://hr-zju.github.io/LiCROcc/

02

相关工作回顾


语义场景补全(SSC)作为自动驾驶中的一项关键技术,因其能够提供详细的3D场景信息而受到了广泛关注。相机和激光雷达是用于SSC任务最普遍的传感器,每种都有其优势和局限性。相机提供了丰富的语义上下文,但缺乏深度信息,并且容易受到光照和天气条件的影响。而激光雷达提供了精确的3D几何信息,但在处理高度稀疏输入时表现不佳,并且由于密集激光雷达传感器的高成本而限制了其广泛应用。另一方面,雷达作为一种在自动驾驶中越来越受欢迎的、能够抵抗恶劣天气条件的传感器,因其车规级设计和可负担性而受到重视。尽管雷达在多样化的天气和光照条件下具有鲁棒性,但其稀疏和嘈杂的测量结果对于大规模户外场景的SSC来说是一个重大挑战。
最近的大多数研究主要集中在基于雷达的检测上。仅有少数研究探索了雷达传感器在SSC任务中的应用。然而,它们只能使用雷达预测极少数类别的占用情况或作为多模态输入的补充。此外,我们发现尽管雷达在对抗不利天气条件和光照变化方面具有固有的优势,如表I和图1所示,但基于雷达的和基于激光雷达/相机的SSC方法之间仍然存在显著的性能差距。为了解决上述挑战,在这项工作中,我们探索将雷达作为SSC的核心传感器,并设定了新的性能标准。
最开始我们建立了基于雷达的基线R-SSC-RS。然而由于缺乏复杂细节,仅依靠雷达传感器无法实现高度精确和鲁棒的SSC。为了进一步提高基于雷达的SSC性能,我们设计了一个相机-雷达融合网络,以有效地将RGB图像的丰富语义上下文融合到BEV空间中的雷达中。通过这种方式雷达SSC得到了显著改进。
此外,我们发现到激光雷达-相机融合在室外SSC中实现了更优的性能,如图1和表I所示,为雷达特征学习提供了宝贵的指导。因此,我们提出了一种基于融合的知识蒸馏方法,从激光雷达-相机融合网络(教师)中提取有信息量的线索,并将它们转移到基于雷达的基线RSSC-RS和雷达-相机融合网络中,从而产生了我们的方法R-LiCROcc和RC-LiCROcc。
我们对激光雷达-相机和雷达-相机融合网络采用了相同的架构。对于基于融合的知识蒸馏模块,我们结合了跨模态残差蒸馏(CMRD)、BEV关系蒸馏(BRD)和预测分布蒸馏(PDD),以分层方式强制学生模型学习教师模型的特征表示和分布。通过这个提出的基于融合的知识蒸馏模块,我们的LiCROcc仅使用雷达(RLiCROcc)实现了与基于相机的方法相当的成果。此外,LiCROcc通过结合雷达和相机输入(RC-LiCROcc)接近基于激光雷达的方法的性能,同时在不利的天气条件和夜间视觉能力方面保持了鲁棒性。
总结来说,本文的主要贡献如下:
  • 我们旨在提高雷达在语义场景补全中的性能,同时保持现实世界中的实用性,利用雷达对各种天气条件的弹性。我们还从基于激光雷达的方法中建立了基于雷达的基准,促进了基于雷达的SSC研究,并考虑了一个相机-雷达融合网络以提高性能。
  • 我们提出了一个新的框架LiCROcc,它结合了CMRD、BRD和PDD模块,分层强制学生模型学习教师模型的特征表示和分布。
  • 在大规模的nuScenesOccupancy上进行的广泛实验证明了我们提出方法的有效性。

03

LiCROcc详解


概述

如上所述,我们构建了基于雷达的基线,并设计了雷达-相机融合网络(图2的底部)以提升基线性能。为了利用激光雷达-相机融合中详细的几何结构和点表示的指导,我们进一步使用基于融合的知识蒸馏将知识从激光雷达-相机融合网络(图2的顶部)传递到基于雷达的基线和雷达-相机融合网络。我们采用相同的架构,即多模态融合网络,来建立上述两个融合网络。

多模态融合网络

多模态融合网络主要由图像分支提取图像特征、点分支编码激光雷达/雷达点,以及多模态BEV融合网络高效整合点和图像特征。
图像分支。 遵循FlashOcc,我们建议将周围图像特征投影到BEV空间进行后续处理,减轻了内存开销,同时保持占用预测的高精度。图像分支主要包括三个部分:相机编码器用于图像特征、PVto-BEV投影层用于3D场景的BEV表示,以及BEV编码器用于提取包含丰富语义上下文的多尺度BEV特征( ,其中 )。提取的多尺度BEV特征被送入BEV融合模型与点特征交互,将在下文详细说明。
点分支。 不失一般性,我们采用基于BEV的SSC-RS作为我们的点分支。该分支使用两个独立分支进行语义和几何编码。带有ARF模块的BEV融合网络聚合这些分支的特征,得到最终的语义场景补全。由于其解耦设计,SSC-RS轻量且具有强大的表示能力,非常适合用作点分支。点分支接收激光雷达/雷达点云 并输出多尺度BEV特征( ,其中 )。对于激光雷达点云, 的范围内。对于雷达点云, 是 xyz 坐标、雷达截面 σ 和由自车运动补偿的 xy 速度的串联。
多模态BEV融合网络。 由于3D卷积用于密集特征融合的计算负担,我们引入了一个多模态BEV融合网络,灵感来自BEV感知任务。该网络有效地结合了语义丰富的视觉BEV表示( )和几何信息丰富的激光雷达特征或抗天气雷达特征。为了简化融合过程,我们将激光雷达或雷达点云特征与 统一。类似于,我们的BEV融合网络采用了2D卷积U-Net架构。每个残差块将输入特征分辨率减半,以与语义/补充特征保持一致。在每个后续块之前,我们使用ARF将前一阶段的 与当前阶段的 整合得到 ,然后将缩放的 通过加法融合到 。解码器通过跳跃连接将编码器压缩的特征上采样三次,每次放大两倍。最终的解码器卷积生成了SSC预测 ,其中 表示语义类别的数量。为了表示体素语义占用概率, 被重塑为
为了训练所提出的融合模型,我们使用交叉熵损失 来优化网络。此外,我们还使用affinity损失 来优化场景和类别中的指标(即几何IoU和语义mIoU)。因此,BEV融合损失函数可以推导为:

基于融合的知识蒸馏模块


如图2所示,我们的教师和学生模型共享相同的网络结构。由于融合和蒸馏过程都在BEV下进行,学生模型的图像分支是可选的。在这一部分,我们用 表示学生模型的四个BEV特征,用 表示教师模型的相应特征(在图2和图3中以浅蓝色表示)。
  1. 跨模型残差蒸馏:相机和激光雷达融合特征包含丰富的语义和几何信息。与它们相比,雷达点要稀疏得多。雷达的语义信息主要来自速度测量。观察到这种差距,我们认为直接强制雷达特征模仿多模态特征的标准方法可能效果不佳,因此我们设计了一个跨模型残差蒸馏模块。具体来说,我们使用公式(3)将学生特征 投影到具有相同维度的隐藏空间 。在该空间中,我们通过最小化它们之间的余弦相似度(由公式(4)计算)来拉近学生和教师特征之间的距离,最终将 作为信息补充加回到原始的 ,这避免了与直接特征模仿方法相比,干扰雷达特征的内在逻辑。此外,雷达在天气抗性和观测范围方面具有独特的优势。我们的目标是让学生模型在保持其独特特性的同时,学习教师模型的优势,而不仅仅是简单地复制教师。基于此,我们使用ARF动态计算将 整合的权重。特征传输的过程如下:


    假设 是在特征图 上索引为 的特征,则CMRD损失 形成如下:
其中 如果该柱上有非空非噪声标签,否则 。换句话说,我们仅在被占用的位置约束特征相似度。如图3所示,我们为 计算了 ,其中绿色虚线框显示了计算损失的细节。
  1. BEV关系蒸馏:我们采用CMRD进行特征级跨模态蒸馏,保持了学生特征的完整性,同时用教师信息丰富了它们。这一节介绍了一种旨在保持场景级几何关系一致性的机制。为此,我们采用基于余弦相似度的亲和矩阵来比较教师特征图 和学生特征图 。最初,张量 定义在空间 中。然后我们将这些张量转换为 维的矩阵。亲和矩阵使用以下计算方法:

, 其中 表示亲和矩阵中每个元素 的余弦相似度, 表示特征图 中的第 个特征。为了评估学生和教师模型在场景级信息差距,我们计算它们亲和矩阵的L1范数。然后BRD损失定义如下:






请到「今天看啥」查看全文