专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

自动驾驶环境理解利器:Panoptic Perception模型比较与挑战分析 !

智驾实验室  · 公众号  ·  · 2024-09-04 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

自动驾驶技术正在向前发展,将多种感知任务集成到一个统一的整体框架中,以便实现对车辆周围环境的深入理解。

本调查回顾了用于 panoptic perception 的典型模型,并对其独特的输入和架构进行了比较,同时也比较了它们的性能、反应灵敏度和资源利用。

调查还深入了解了 panoptic perception 面临的现行挑战,并探讨了未来研究的可能轨迹。

作者的目标是向自动驾驶领域的研究行人提供一个关于 panoptic perception 的详细概述,使此次调查成为自动驾驶技术不断发展的关键参考资料。

Objective and Organization

目前,许多传统方法已经被成功应用于自动驾驶领域,特别是在 Level 3 自动化范围内。这些传统方法通常依赖于单一,模块化的模型。然而,全知觉(panoptic)感知出现了作为一种创新且越来越重要的技术在这个领域。相比传统方法,它在鲁棒性、准确性和效率方面具有的优势。尽管在文献中其相关性正在增长,但关于全知觉感知知识,特别是在自动驾驶背景下的综合收集和分析,尚不存在明显的文献。本文旨在填补这一空隙。

作者的目标是阐明构成全知觉感知的基础概念和理论,并对当前流行的全知觉感知模型进行深入分析。通过如此,作者旨在为研究行人寻求这个领域提供更明确的方向和框架。作者预计这次调查将激发更多的研究和讨论,为自动驾驶中的全知觉感知研究的发展做出贡献。

文献搜索和收集在 Google Scholar、Scopus 和 Arxiv 上进行。作者使用了以下关键词进行搜索: 自动驾驶 多任务学习 全知觉感知 ,总共大约收集到 218 篇文章。此外,作者也考虑了 2023 年 6 月前发表的这些文章。这些文章需要更具详细性。这些论文不得全引,并且需要根据以下问题进行过滤:

  1. 全知觉感知网络主要包括哪些任务?

  2. 该模型是否在某种程度上超过了单任务基准性能?

  3. 是否与其他全知觉感知模型进行了比较并具有某一些独特的优点?

在本次调查的范围内,28 篇论文提出了具有独特全知觉感知网络,并回答了上述问题。本次调查详细收录了这 28 篇论文,并对它们引入的网络进行了详细分析和比较研究。图1 列出了所有模型的出版顺序。这些模型是全知觉感知领域的重要推动力,它们主要区别在于输入来源以及采用了各种架构,包括卷积神经网络(CNNs)、 Transformer 以及混合模型,以在各自的应用中取得出色的结果。参考 3D 目标检测的调查分类(Wang et al., 2019),现有的工作可以分为以下三个子类别:

1)基于图像的,如这些方法目前在全知觉感知领域更为常用,因为图像可以提供更丰富的特征;

2)基于点云的,这些方法补全了不能获取精确深度信息的不足;

3)多模态融合(Wang et al., 2021;Wang et al., 2022),这是当前的发展趋势,因为这种方法既获取准确深度信息又获取丰富的图像特征,但如何更好地将不同模态的输入进行融合是一个挑战。

调查的其余部分如下:第二章,作者从关于传感器、感知任务、数据集和基准以及与全知觉感知相关的评估指标等方面深入探讨了全知觉感知的背景。第三章详细评述了自动驾驶中的全知觉感知及其相应的详细架构。第四章提供了最新的全知觉网络的全面比较。作者在第五章讨论了全知觉感知的当前挑战并确定了未来的研究方向。最后,作者在第六章完成了本文的总结。

2. Background

Hardware for Panoptic Perception

自动驾驶的实现重度依赖于车辆对环境的感知和理解能力。这通常通过使用各种传感器来捕获车辆周围环境的数据来完成。在本节中,作者将探讨常用于自动驾驶感知领域的不同类型传感器以及它们的优缺点。此外,作者还将研究现有的传感器融合方法,以克服由单一类型传感器不足引起的问题。

2.1.1. Cameras

单目摄像头是自动驾驶中最常用的传感器之一。它们通过单摄像头捕捉周围环境的图像,以获取视觉数据。单目摄像头操作简便,应用广泛,可以实现目标检测、交通标志识别和车道分割等功能。同时,它们还能提供关于环境的一系列上下文信息,如光线条件、天气和道路状况等。

单目摄像头 。单目摄像头使用单一镜头捕捉环境图像。它们是自动驾驶中最简单且应用最广泛的使用型摄像头。单目摄像头的尺寸和重量都较小,非常适合小型车辆或无人机使用。此外,它们的价格相对较低,能耗较低。然而,它们具有有限的深度感知,不能准确估算环境中的物体距离。在自动驾驶中所使用的最常用的单目摄像头是巴特勒acA1600-60gc [3],其分辨率为1.92百万像素,适用于需要精确图像的应用。此外,巴特勒acA4112-30uc,分辨率高达12百万像素,可以捕捉到极其细腻的细节。然而,它可能在处理时间和计算能力上有很多要求。

立体摄像头 。立体摄像头使用两个镜头捕捉环境图像,以创建立体图像,从而实现深度感知。这使得它们可以准确估算环境中的物体距离。立体摄像头比单目摄像头尺寸大且重量重,因此具有一定的要求。

Figure 2。摄像头在车辆空间和负载上的分布。此外,环境信息分析和立体摄像头深度估计还需要一些复杂的算法和更强大的计算能力,因此它们更昂贵且能耗更高。通常使用的Bumblebee2 BB2-08S2C易于使用,稳定,能够生成高质量立体图像,但分辨率较低。ZED立体摄像头 [10]可以提供准确的深度图像和三维视图。然而,在低光环境中,性能可能受到限制。

2.1.2 LiDAR

激光雷达(LiDAR)是一种利用激光进行远程感测的技术,通过测量激光脉冲反射到目标物并返回传感器所花费的时间,来准确估算环境中物体的距离。激光雷达提供了高度准确的3D环境信息,使其非常适合深度估计等3D相关任务。激光雷达相较于相机的一个优点是其能适应低光条件,使其成为夜间驾驶的首选传感器。然而,激光雷达可能会受到恶劣天气条件(如雨或雾)的影响,导致激光束发生散射,降低其准确性。

单向激光雷达(1D LiDAR) 。单向激光雷达依赖单激光束测量物体在某一方向的距离。它通常用于低速应用,如避障系统。单向激光雷达可以提供准确的距离测量,但覆盖范围有限,无法提供环境的全面3D表示。实际上,Garmin LiDAR-Lite v3 [4]是用于无人机、机器人以及其他自动化场景的轻便且价格实惠的单向激光雷达。

二维激光雷达(2D LiDAR) 。二维激光雷达依赖旋转激光光束测量物体在二维平面上的距离,这一特性使得它能创建环境的二维表示。二维激光雷达通常用于自动驾驶中的障







请到「今天看啥」查看全文


推荐文章
经典人生感悟  ·  艳照
7 年前
来自星星  ·  男生觉得什么样的女生不可靠?
7 年前