随着深度学习最近在计算机视觉领域的成功,人们提出了许多 3D 检测的方法。如从 LiDAR 点云、多视图图像或单目图像中来回归 3D 边界框。其中,从单目图像中直接回归 3D 物体检测框在原则上最具挑战性。这主要因为单目深度估计的深度不具有尺度。因此,现有方法的单目3D检测的方法严重依赖于监督学习,即使用在 LiDAR 点云上手动标注的大量的3D 标签。但是这种标注成本非常高,对将 3D 物体检测器部署到自动驾驶系统中构成了重大障碍。
受到最近从多视角图像恢复3D结构的逆渲染方法的影响(如NeRF和Neus),我们尝试提案了一个新的框架叫做VSRD(Volumetric Silhouette Rendering for Detection)的新型弱监督 3D 检测框架。这种训练框架不需要使用任何3D GT标签或者LiDAR点云,只凭借多视角的2D信息来训练3D检测器。在VSRD中,我们把3D检测问题看作为一个3D重建问题,通过优化车的表面来间接优化3D框,这是因为3D框可以近似于物体表面的最大外接矩形。这样一来,我们就可以仅仅使用2D的信息来监督和优化3D检测,摆脱对点云的依赖。
标题:VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection
作者:Zihua Liu, Hiroki Sakuma, Masatoshi Okutomi
机构:东京工业大学,T2.Inc.
原文链接:https://arxiv.org/abs/2404.00149
代码链接:https://github.com/skmhrk1209/VSRD
官方主页:http://www.ok.sc.e.titech.ac.jp/res/VSRD/
3. 摘要
本文提出了一种名为 VSRD(Volumetric Silhouette Rendering for Detection)的新型弱监督 3D 检测框架。这种训练框架不需要使用任何3D GT标签或者LiDAR点云,只凭借多视角的2D信息来训练3D检测器。VSRD的训练包括2个阶段:(1)使用多视图的instance mask进行SDF-based 的体渲染从而获得用于3D检测训练的伪标签。(2)利用阶段一生成的伪标签进行任意3D detector的训练。在第一阶段,我们将每个车的表面表示为有符号距离场(SDF),并通过我们提出的实例感知的体渲染将其轮廓渲染为instance mask。为了能让体渲染直接优化 3D 边界框,我们将每个车的 SDF 分解为长方体的 SDF 以及真实表面与长方体表面之间残差的残差距离场 (RDF)。这种机制使我们能够通过将渲染的silhouette mask与真实的instance mask进行比较,以End-to-End的方式优化 3D 边界框。优化的 3D 边界框可作为伪标签来训练任意 3D 检测器。KITTI-360 数据集上进行的实验表明,VSRD优于现有的弱监督 3D 对象检测方法,包括使用LiDAR数据的WeakMD。