专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
51好读  ›  专栏  ›  自动驾驶之心

3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)

自动驾驶之心  · 公众号  ·  · 2024-12-23 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 港中文&小米最新的工作! 以Object为中心的占用补全技术。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 占用网络 技术交流群

作者 | Chaoda Zheng等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。比如下图1(a)所示,起重机被一个3D边界框完美包围。但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。而感知出来的结果是将3D边界框所包围的空间视为不可通行的。因此,在处理复杂和不规则形状的物体时,边界框在提供细粒度感知结果方面是不足够的,这可能会影响后续任务的精度,如规划和控制。

所以, 占用空间 是一个比较强有力的替代方法,如图1(b)所示,占用表示将3D空间离散化为体积网格,其中每个体素被分类为被占用或空闲。与3D边界框相比,这种表示更有效地捕捉不规则形状,从而增强了精确规划和控制。然而,从传感器输入实时生成场景级占用,无论是从视觉中心输入还是激光雷达传感器都非易事,前者是因为缺少深度感知,后者是因为每次激光雷达扫描的稀疏性(见图2(b))。

因此,现有的方法利用 神经网络以数据驱动 的方式预测占用。由于计算限制,这些方法通常为大场景感知产生低分辨率占用网格或者需要大量的训练来实现隐式表示,这在实际使用中仍然是不够的和效率低下的。另一种构建占用网格的方法是直接 体素化激光雷达点云 。为了缓解稀疏性问题(图2(b)),聚合多个激光雷达扫描对于背景是有效的。然而,对于前景物体,占用构造变得具有挑战性,因为它需要准确的检测和跟踪来补偿它们的潜在移动。在实时应用中,3D检测容易漂移,跟踪算法可能会丢失或错配物体,导致不准确的轨迹。如图2(d)所示,直接从不准确的轨迹聚合点云会导致极其模糊的形状表示。这些不准确随时间积累,逐渐降低了形状表示的可靠性。

  • 论文链接:https://arxiv.org/pdf/2412.05154

基于这些观察,作者做了本文的工作,主要贡献总结如下:

  • 引入了以对象为中心的占用作为对象边界框的补充,为物体的内在几何提供了更详细的结构描述。与其场景级对应物不同,以对象为中心的占用专门关注前景物体,允许即使在大场景中也能实现更高的体素分辨率。
  • 为了促进以对象为中心的占用感知的发展,作者提出了一个新的以对象为中心的占用数据集,该数据集是使用自动化流水线从零开始构建的。
  • 提出了一个鲁棒的基于序列的占用完成网络。通过使用注意力机制聚合历史观测的时间信息,该网络有效地处理检测漂移,并准确预测完整的对象中心占用。
  • 采用了隐式形状解码器来生成动态大小的占用,并通过对选择位置的查询减少训练成本。在Waymo Open Dataset (WOD) 下的实验表明,即使在嘈杂的检测和跟踪条件下,本文的方法也能展现出鲁棒的性能,完成对象形状。凭借隐式形状描述符,作者展示了最先进的3D对象检测器的性能也可以得到改善,特别是对于不完整或远距离的物体。

相关工作

3D占用空间预测和形状补全

3D语义占用预测(SOP)已成为以视觉为中心的自动驾驶中的关键任务,其中算法主要使用RGB摄像头感知环境。这些以视觉为中心的模型通常将周围环境离散化为体积网格,并通过对单个/多视图RGB图像的适当聚合来预测每个体素的占用状态。对于被占用的体素,模型还会额外预测相应的语义类别。另一个类似的任务是3D语义场景补全(SSC)。与只需要预测可见区域的占用的SOP不同,SSC还要求模型确定未见区域的占用状态。值得注意的是,尽管SOP和SSC主要与以视觉为中心的方法相关,但它们也适用于稀疏激光雷达或多模态输入。现有的SOP和SSC方法主要关注场景级占用,而作者的工作集中在对象级占用上,以更好地表示形状。此外,对于作者设置,被占用体素的语义不是必需的,因为作者主要关注的是对象边界框内的几何结构,其类别标签是已知的。与作者基于占用的方法不同,大多数形状补全方法专注于对象的表面重建。然而,基于表面的表示不太适合自动驾驶感知,因为它们不直接支持诸如避碰等任务。

长序列做3D目标检测

对于单帧检测器可以通过将几个历史帧的连接作为输入,来获得不错的效果。尽管这种简单的多帧策略显示出明显的改进,但随着输入帧数的增加,性能容易饱和。此外,随着输入帧数的增加,计算成本显著增加,这对于实时应用不理想。为了解决这个问题,有的工作采用了残差点探测策略来移除多帧输入中的冗余点,有的工作选择了一种以对象为中心的方法,通过对轨迹提议进行时间聚合,允许处理更长的序列以降低计算成本。此外,还有一些工作通过利用整个对象轨迹的过去和未来信息,展示了人类级别的检测性能。然而,它们仅限于离线应用,因为它们需要访问未来的帧。最近,MoDAR通过使用从长历史子序列预测的未来轨迹点来增强激光雷达点云,从而改进检测。与MoDAR相比,作者的方法能够通过紧凑的隐式潜在嵌入聚合所有历史信息。

隐式表示

隐式形状表示就是用连续函数表示3D形状。与传统的显式表示(例如,点云、网格、体积网格)相比,隐式表示可以在连续空间中描述形状结构,并且更节省内存。而不是手动设计隐式函数,最近的一些工作提出从数据中学习隐式函数。具体来说,他们使用神经网络来近似隐式函数,这可以通过数据驱动的方式进行训练。这些神经函数通常以连续的3D坐标作为输入,并在查询位置输出相关的形状属性(例如,颜色、密度、有符号距离等)。作者的隐式形状解码器与DeepSDF比较相似。然而,作者不是预测查询位置的有符号距离,而是预测其占用概率。

以Object为中心的占用数据集

高质量的数据集对于基于学习的方法至关重要。然而,现有的数据集由于坐标系统不对齐和分辨率不足,无法满足作者对对象中心占用感知的要求。所以作者根据现有的3D检测数据集,用一套自己的pipiline,构建对象中心占用注释,生成了一个数据集。坐标系的定义见图3,,详细构建过程可以参考原文。

基于序列的占用补全网络

图4展示了作者设计的网络架构。使用object序列作为输入,公式化为 ,其中 是时间戳 的点云, 是相应的噪声3D对象边界框。输入序列可以使用现成的3D检测和跟踪系统生成。作者的主要目标是预测轨迹中每个提议的完整对象中心占用网格。此外,作者使用占用特征来进一步细化3D检测器的检测结果。

通过隐式解码生成动态尺寸占用空间

作者的网络主要关注由对象提议定义的兴趣区域(RoIs)。鉴于不同对象的大小不同,且同一对象的提议可能因检测不准确而异,从特征空间为每个动态大小的提议高效解码占用体积是一个重大挑战。传统的场景级占用感知方法通常应用密集卷积层来解码占用体积。然而,这种策略在动态大小对象中心占用的背景下遇到了几个限制。首先,由于作者需要跨时间戳的特征交互,不同提议的特征最好在同一大小。然而,从固定大小的特征图解码动态大小的体积对卷积来说并不简单。其次,密集卷积操作对于高占用分辨率来说计算成本很高。另一种选择是稀疏卷积,然而,它无法用正确的占用状态填充未占用的体素。

从最近的隐式形状表示的成功中汲取灵感,作者通过隐式形状解码器 来解决上述挑战。这个解码器能够基于其对应的潜在嵌入预测RoI内任何位置的占用状态。具体来说,解码器接收潜在嵌入 以及查询位置 在RoI坐标下,随后输出查询位置 的占用概率:

其中 实现为一个多层感知机(MLP)。潜在 是一个固定长度嵌入,描述RoI内的几何结构。潜在 和查询位置 在发送到 之前被连接在一起。除了使特征交互灵活和计算高效,隐式形状解码器还允许通过连续查询位置更容易地进行占用插值或外推。

双分支 RoI 编码

有了隐式形状解码器,下一步是获得一个准确表示RoI内完整对象形状的潜在嵌入 。为了实现准确的形状补全和检测,两个信息源至关重要:

  • 每个RoI的部分几何结构
  • 对象随时间的运动信息。

为了使不同的RoI共享相同的嵌入空间,作者在规范的局部坐标系下对每个RoI进行编码。然而,将RoI转换到局部坐标系不可避免地会丢失对象的全局运动动态,降低了网络处理检测漂移的能力。因此,作者使用两个独立的编码器对每个RoI进行编码: 在局部坐标系下编码RoI, 在全局坐标系下编码。

具体来说,作者使用FSD中的稀疏实例识别(SIR)模块作为作者的RoI编码器。SIR是基于PointNet的网络,其特点是多个每点MLP和最大池化层。从LiDAR R-CNN中汲取灵感,作者通过RoI的大小信息增强点云。这种增强涉及装饰RoI内的每个点,使其相对于RoI边界的偏移量,使其能够box-aware。所有点在发送到 之前都转换到由检测到的边界框定义的局部坐标系中。相反, 直接在全局坐标系中编码RoI。对于给定的对象序列 ,作者分别使用 对每个RoI进行编码,得到两组潜在嵌入

通过时间聚合增强特征

RoI编码后,作者使用 中的运动信息来丰富局部形状潜在嵌入







请到「今天看啥」查看全文