专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

DetVPCC 将 RoI 编码与 VPCC 结合，高效压缩点云序列，在 nuScenes 显著提升 3D 检测精度 !

智驾实验室 · 公众号 · · 2025-03-13 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

虽然基于MPEG标准的视频点云压缩（VPCC）在人类感知方面实现了高压缩效率，但在支持3D目标检测器时，它在比特率节省和检测精度之间难以取得良好的平衡。

这一局限性源于VPCC无法在点云中优先处理不同重要性的区域。

为了解决这一问题，作者提出了DetVPCC，这是一种将兴趣区域（Rol）编码与VPCC相结合的新方法，以实现高效的点云序列压缩，同时保持3D目标检测精度。

具体来说，作者对VPCC进行了增强，以支持基于Rol的压缩，通过分配空间非均匀的质量 Level 。

然后，作者引入了一个轻量级的RoI检测器来识别可能包含物体的关键区域。在nuScenes数据集上的实验表明，作者的方法显著提高了检测精度。

1. 引言

在人工智能（AI）领域，随着计算能力的提升和算法的不断发展，机器学习（ML）技术已经取得了显著的进步。本文旨在探讨机器学习在各个应用领域的最新进展，并分析其潜在的影响。在接下来的章节中，作者将详细介绍机器学习的基本概念、算法类型及其在具体领域的应用案例。

基于点云的3D目标检测正在革新众多应用领域，显著提升了自动驾驶[13, 30, 52]和3D场景感知[5, 6, 18, 47]等领域的功能。鉴于基于深度学习的计算密集型3D目标检测器与边缘设备有限的计算资源之间存在冲突，将点云数据 Stream 传输或存档到具备计算能力的平台进行进一步分析[26, 31]或模型优化[40, 50]具有很大潜力。然而，传感器产生的海量点云数据给网络和存储带来了重大挑战。

动态图像专家组（MPEG）基于视频的点云压缩（VPCC）[17]标准是解决点云序列压缩的有前景的解决方案。

VPCC将一系列3D点云投影成2D深度和彩色图像，并利用成熟的视频编解码器如H.264[46]，这些编解码器被现有硬件广泛支持，以去除时间冗余并压缩数据量[16]。通常，VPCC不会对不同空间区域进行优先级排序，并在点云内部应用恒定的压缩质量，这与视觉质量指标如点对点（P2P）峰值信噪比（PSNR）[32]和点对平面（P2C）PSNR[43]相一致。

然而，这种质量分配方案在需要更高保真度的某些空间区域（即感兴趣区域，RoIs）的应用中存在显著局限性。例如，在驾驶场景中，包含潜在物体的区域对于3D目标检测器[35, 36]至关重要，而地面平面则不那么重要[19, 24]。压缩技术的统一应用可能会导致RoIs中关键细节的丢失，从而可能损害3D目标检测器的功能。为了更好地理解这种困境，图1展示了在nuScenes数据集[7]上应用VPCC时VPCC的比特率-准确度曲线。如图所示，VPCC在比特率降低与3D目标检测精度之间经历了较差的权衡。

为此，作者提出了DetVPCC，一种基于RoI的点云序列压缩方法。具体来说，作者对VPCC进行了增强，以支持RoI编码，并设计了一种轻量级检测器以高效地定位RoIs。如图1所示，借助RoI编码，作者的方法显著提高了3D目标检测器的准确性。

本工作的贡献如下：

据作者所知，这是首次突显并解决VPCC在支持3D目标检测时存在的比特率-准确性权衡问题。
作者增强了VPCC，使其能够支持基于RoI的编码，以实现空间上非均匀的质量分配。
作者设计了一个高效的RoI检测器，以定位可能包含目标的临界区域。
作者在nuScenes数据集上对DetVPCC进行了评估。
实验结果表明，DetVPCC在比特率-准确性权衡方面优于传统的VPCC。

2. 相关研究工作

2.1. 点云序列压缩

点云序列压缩方法大致可分为基于点和基于投影两大类。基于点的方法直接对3D点云进行操作，以消除帧间的冗余内容。早期方法将点表示为八叉树[14]或 Voxel [9]，而近期的研究[2, 15]利用深度神经网络（DNNs）将无结构的点云转换为潜在空间，通过更好地关联帧间相似组件，从而提高了编码效率。

相比之下，基于投影的方法将3D点云投影到2D深度图像上，并压缩深度图像的体积[16, 42]。作为持续标准化工作的组成部分，VPCC[16]利用成熟的2D视频编码器如H.264来编码深度和颜色图像。这种策略使得VPCC成为最具潜力的点云序列压缩标准之一，因为它与现有的2D视频编码器和硬件基础设施无缝集成。

2.2 机器视觉编码器

随着视觉模型消耗越来越多的多媒体内容，开发以机器视觉为导向的编码器以通过利用视觉模型的区域兴趣（RoIs）来节省比特的需求日益增长。对于2D视频编码，基于反馈的方法利用基于梯度的重要性分数或预测的边界框来构建空间重要性图。基于神经编码器的方法[37, 45]用微分神经编码器替换传统编码器，并直接优化以支持目标视觉模型。

设备端分析的方法提出使用低成本的分析模型来定位RoIs或动态控制编码参数。对于单帧3D点云编码，刘等人[27]提出了一种针对人类和机器感知都进行了优化的神经编码器。然而，据作者所知，目前尚无现有工作对3D点云序列压缩进行过研究。

3. 研究方法

3.1. 概述

如图2所示，在第一阶段，Rol检测器在点云中识别感兴趣区域（RoIs），而VPCC将原始点云转换为无损的2D深度图像。随后，RoI编码器对这些无损深度图像应用基于RoI的损失性转码，有效地压缩了数据量。编码后的点云可以被存档或传输到云端，由后端3D目标检测器进行进一步分析。这实现了多种应用，例如基于云的3D目标检测、故障检测、设备上3D目标检测器的优化以及高效的3D内容检索。

3.2 基于区域兴趣（RoI）的点云序列编码器

3.2.1 VPCC的初步探讨

为了编码点云序列，VPCC首先将点云根据点对点的表面法线进行聚类，形成小区域。接着，将这些区域投影并排列成三个二维图像序列，即属性图像、占用图像和几何图像[16]。属性图像存储颜色和辅助信息。占用图像是二值图像，表示几何图像中的占用情况。C 几何（深度）图像将点位置编码成像素值，这些像素值与投影平面与相关点之间的距离成比例，如图3所示。然后，这些二维图像使用标准的二维视频编解码器，如H.264，进行压缩，形成独立的比特流。通常，几何图像占据大部分体积[39]。

为了重建点云，对压缩的比特流进行解码，并利用比特流中编码的投影信息将点云投影回三维空间。

3.2.2 比特率控制与区域兴趣编码

VPCC在点和图像 Level 都提供了比特率控制选项。对于点级比特率控制，VPCC提供了限制每个 Patch 中点的最大数量以及所选点到投影平面的最大距离的选项[16]。在图像 Level ，比特率控制遵循底层二维视频编码器。

遵循现有文献[39, 41, 44]的做法，作者在图像 Level 控制比特率，通过使用H.264[46]视频编码器对无损几何（深度）图像进行转码，以利用二维视频编码器成熟的比特率控制机制。与之前统一压缩几何图像的研究不同，作者通过利用二维视频编码器的宏块级质量控制功能，实现了非均匀质量分配。

具体来说，H.264将几何图像处理成由像素组成的宏块。每个宏块将进一步被分割并通过二维离散余弦变换（DCT）转换到频域[46]。

其中代表像素矩阵，代表离散余弦变换（DCT）系数矩阵，代表正交的DCT变换矩阵。上述方程可以转化为以下等价形式[38]：

表示一个缩放矩阵，而表示逐元素乘法。是未缩放的系数矩阵，它通过以下方式进行量化缩放：

在量化频率系数矩阵和由 .QP 推导出的缩放矩阵中，QP（量化参数）是一个控制码率的整数值，通过调整量化步长来改变。QP 越大，在量化过程中保留的频率信息越少，图像质量越低，体积越小。在H.264中，QP的取值范围是0到51。

P 为了实现非均匀的QP分配，作者利用NVENCODE API [34]提供的强调图功能。该功能允许对宏块 Level 的进行控制，这使得编码器能够增强指定分区中几何图像的质量。如图3所示，通过为深度图像的感兴趣区域（RoI）设置较低的QP值，解码的点云中RoI的质量得到了提升。在DetVPCC中，作者通过应用两个不同的QP值来实现二进制质量分配策略——为RoI分配低QP值，为非RoI（背景）区域分配高QP值。

3.2.3 编码目标

ROI编码器的目标可以形式化定义为：

R ∈ {0,1}^{B×L} 是二值ROI宏块指示符，其中 B 和 L 分别表示每帧中的宏块数量和要编码的几何图像序列的总帧数；F 表示3D目标检测器的准确性函数；q_r 是预定义的ROI量化参数；非ROI（背景）量化参数 q_b 从预定义的量化参数集 Q_b 中采样，以全面评估 R 在不同背景点云质量下的表现。

通常，RoIs（感兴趣区域）在三维空间中被检测到。给定点云的RoI Mask 可以表示为，其中是点云中的点数，表示第个点属于RoI。通常情况下，，可以通过以下方式求解：

在此，代表帧中像素的数量；是帧索引；是编码在比特流中的VPCC（视频像素编码器）的点到像素映射；是像素到宏块索引映射。

因此，解决方程2的核心在于为任意给定的点云确定RoI Mask 。在下一节中，作者将详细阐述作者设计的RoI检测器，它能够高效地检测3D RoI。

3.3 区域兴趣检测器

一个轻量级的3D目标检测器被用于设计Rol检测器的直观结构，它利用预测的3D边界框作为区域兴趣（RoIs）。然而，尽管目标检测器试图精确回归边界框参数，作者的目标是获取点级的重要性评分，而无需区分实例或预测目标类别。这一观察使得Rol检测器能够以轻量级且高效的方式进行设计。

3.3.1 基于高斯混合模型（GMM）的区域感兴趣（RoI）方法

受先前基于 Heatmap 的目标预测器[22, 51, 54, 55]的启发，RoI检测器旨在预测一个 Heatmap ，以指示目标出现在特定区域的可能性。

如图4所示，由于物体形状不规则和遮挡，属于一个物体的点往往分布不均。

算法1：在边界框中寻找点

需要：点云；一组边界框，其中由宽度、长度、高度和框中心定义；确保：内部点云列表。

在聚类中，每个聚类可以被视为该目标的独立组成部分。因此，作者不是使用简单的高斯分布来建模目标中心[51, 55]，而是提出使用三维高斯混合模型（GMMs）来建模目标的点。具体来说，作者假设目标的点云是从一个三维高斯混合模型中抽取的。