专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
新浪科技  ·  【#胡润中国500强TOP10公布# ... ·  11 小时前  
ZaomeDesign  ·  每日灵感丨二月二十五日 ·  21 小时前  
新浪科技  ·  【#DeepSeek称不构成诊疗法律或投资建 ... ·  昨天  
始室  ·  首发 . Note Design ... ·  3 天前  
51好读  ›  专栏  ›  3DCV

CVPR 2024开源 | VSRD:无需LiDAR和标注,使用2D渲染解决3D检测的新范式!

3DCV  · 公众号  ·  · 2024-04-16 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

点击加入「3DCV」技术交流群

作者:Zihua Liu(作者授权) | 编辑:3DCV
添加微信:cv3d008,备注:3D高斯,拉你入群。文末附行业细分群

0. 笔者个人体会

随着深度学习最近在计算机视觉领域的成功,人们提出了许多 3D 检测的方法。如从 LiDAR 点云、多视图图像或单目图像中来回归 3D 边界框。其中,从单目图像中直接回归 3D 物体检测框在原则上最具挑战性。这主要因为单目深度估计的深度不具有尺度。因此,现有方法的单目3D检测的方法严重依赖于监督学习,即使用在 LiDAR 点云上手动标注的大量的3D 标签。但是这种标注成本非常高,对将 3D 物体检测器部署到自动驾驶系统中构成了重大障碍。

受到最近从多视角图像恢复3D结构的逆渲染方法的影响(如NeRF和Neus),我们尝试提案了一个新的框架叫做VSRD(Volumetric Silhouette Rendering for Detection)的新型弱监督 3D 检测框架。这种训练框架不需要使用任何3D GT标签或者LiDAR点云,只凭借多视角的2D信息来训练3D检测器。在VSRD中,我们把3D检测问题看作为一个3D重建问题,通过优化车的表面来间接优化3D框,这是因为3D框可以近似于物体表面的最大外接矩形。这样一来,我们就可以仅仅使用2D的信息来监督和优化3D检测,摆脱对点云的依赖。

1. 效果展示

使用2D标签优化后得到的3D边界框的可视化结果(第一行)和渲染的实例掩码(第二行)。我们为每个实例分配一个独特的颜色,并且每个像素都根据渲染的软实例标签进行加权求和上色。右侧为对应的BEV(Bird Eye View)视图。

相比于其他的弱监督3D检测方法,我们的VSRD在不依赖于任何3D标注和点云的基础上,表现出了更为准确的3D检测框的检测。

VSRD已经开源了,感兴趣的小伙伴可以试试,跟踪一下Github的最新进度。

2. 论文信息

标题:VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection

作者:Zihua Liu, Hiroki Sakuma, Masatoshi Okutomi

机构:东京工业大学,T2.Inc.

原文链接:https://arxiv.org/abs/2404.00149

代码链接:https://github.com/skmhrk1209/VSRD

官方主页:http://www.ok.sc.e.titech.ac.jp/res/VSRD/

3. 摘要

本文提出了一种名为 VSRD(Volumetric Silhouette Rendering for Detection)的新型弱监督 3D 检测框架。这种训练框架不需要使用任何3D GT标签或者LiDAR点云,只凭借多视角的2D信息来训练3D检测器。VSRD的训练包括2个阶段:(1)使用多视图的instance mask进行SDF-based 的体渲染从而获得用于3D检测训练的伪标签。(2)利用阶段一生成的伪标签进行任意3D detector的训练。在第一阶段,我们将每个车的表面表示为有符号距离场(SDF),并通过我们提出的实例感知的体渲染将其轮廓渲染为instance mask。为了能让体渲染直接优化 3D 边界框,我们将每个车的 SDF 分解为长方体的 SDF 以及真实表面与长方体表面之间残差的残差距离场 (RDF)。这种机制使我们能够通过将渲染的silhouette mask与真实的instance mask进行比较,以End-to-End的方式优化 3D 边界框。优化的 3D 边界框可作为伪标签来训练任意 3D 检测器。KITTI-360 数据集上进行的实验表明,VSRD优于现有的弱监督 3D 对象检测方法,包括使用LiDAR数据的WeakMD。

4. 算法解析

4.1 整体流程图

VSRD是一个2-Stage的3D检测框架 ,我们提出的VSRD分2个阶段,第一个阶段使用多视角图片(视频序列)来渲染每个车的bounding box从而得到伪标签,第二阶段将第一阶段中得到的伪标签当作Ground Truth的标签来训练单目3D检测网络。

4.2 多视角3D检测框自动标注(Multi-view 3D Auto-Labeing)

我们将每个实例的表面表示为 SDF,并将其分解为 3D 边界框的 SDF 和通过HypterNteowrk学习的残差距离场 (RDF)。 组合实例 SDF 用于通过我们提出的实例感知体积轮廓渲染来渲染实例的轮廓。所有 3D 边界框都根据渲染silhouette mask和GT instance mask之间的损失进行优化。整体的优化过程可以写成公式: 其中D,L,O,Z分别为3D Bounding Box的参数化表达,我们使用这些参数来表述车的surface(SDF),从而使用体渲染进行优化。

4.2.1 残差距离符号场(Residual Distance Field)

通常情况下,每个实例的形状并非长方体。因此,如果我们仅使用长方体的符号距离函数(SDF)来渲染每个实例的表面,由于实例表面与3D边界框之间存在空间间隙,将无法准确渲染轮廓,从而在优化过程中导致不可靠的反馈信号。 因此,我们提出了一种名为残差距离场(RDF)的新型神经场,用于模拟实例表面到3D边界框的符号距离之间的残差。

对于任意车辆,我们首先定一个随机的Instance Embedding Zn,通过学习一个Hypernetwork H 来产生用于生成残差SDF的网络G的参数。残差网络G接受空间中任意位置p作为输入来估计这一点的SDF残差,利用残差来更新前面定义为长方体的Box SDF,使得优化后的SDF能够真正的拟合车的表面。这里使用HyperNetwork的原因在于一般情况下,instance-level的优化需要N个MLP进行拟合,但是由于我们优化的对象都是车,车的形状虽然彼此不相同,但是存在一定会的共性。因此我们使用车的instance embedding 作为输入,训练一个Hypernetwork来动态调整残差网络的weight,从而避免使用N个MLP, 而是仅仅使用一个MLP来生成网络的权重。

4.2.2 实例感知(instance-aware)的体渲染

由于最后的优化是将渲染出来的mask和真实的instance mask之间进行对比来计算损失,并且一次性优化一个物体,而是一次性优化整个场景。因为在进行体渲染时候,我们提出来一种实例感知的体渲染方法,如上图所示,我们首先计算场景中任意一点到所有物体的SDF,使用softmin函数转化为权重,对于每一个物体,我们赋值一个unique的One-Hot编码,然后利用SDF的权重进行加权平均,最后得到一个Weight Average的实例标签来进行体渲染, 这样体渲染的好处在于每一个位置的SDF的梯度不单出由离它最近的物体决定,而是由整个场景来决定的。 这样全局的优化有利于在渲染时候考虑物体和物体之间的几何关系,如occlusion,从而渲染出更好的3D检测框。

4.2.3 置信度(Confidence Assignement)

由于我们的3D检测框是基于体渲染得到,因此它由一个大前提就是物体的位置和姿态在多视角中必须保持一致。但是在自动驾驶的场景中有大量的动态物体(比如正在移动的车),因此对于这种动态物体的估计一定相对较差,把这些较差的weiza标签直接用来学习单目的3D检测会对性能产生影响。因此我们使用一种简单的方法为每一个渲染出来的3D检测框赋予置信度。具体操作为:我们将渲染出来的3D检测框重新投影回2D的多视角图中,计算3D检测框的2D投影和真实的2D检测框之间的交叉比(IoU),将平均的IoU当成置信度使用。 如上图所示,红色代表较大置信度,蓝色代表较小的信息度。

5. 实验

我们在实验中使用了KITTI-360数据集,将其分为训练集(43,855张图片)、验证集(1,173张图片)和测试集(2,531张图片)。我们遵循与KITTI数据集相同的评估协议。然而,由于KITTI-360数据集不像KITTI数据集那样提供遮挡和截断标签,我们只考虑两个难度等级,即基于每个真实2D边界框的高度是否分别大于40像素和25像素的“简单”和“困难”。与先前的工作一致,我们仅评估我们方法在“汽车”这一类别上的表现。

5.1 消融实验

我们进行了消融研究,以证明我们提出的多视角3D自动标注中每个组件的有效性。从表1可以看出,多视角投影损失L(proj)本身就是一个实用的基线。多视角轮廓损失L(slh) 进一步略微提高了伪标签的质量,但每个实例的表面与3D边界框之间的空间间隙限制了进一步的改进。然而,残差距离场(RDF)通过解决这个问题显著提高了伪标签的质量。随着每个组件的加入,系统性的改进。

5.2 和其他弱监督的比较

上表展示了我们的方法与现有的弱监督和全监督方法的评估结果比较。在所有指标上,我们的方法显著优于WeakM3D(ICLR2022),同时消除了对LiDAR点进行3D监督的需求。此外,基于我们提出的自动标注生成的伪标签训练的检测器表现优于基于Autolabels(CVPR2020)生成的伪标签训练的检测器。进一步地,使用更复杂的单目3D对象检测器,如MonoFlex(CVPR2021)和MonoDETR(ICCV2023),可以进一步提高检测性能,显示出我们方法的广泛适用性,它不限于特定的检测模型。值得注意的是,基于我们方法生成的伪标签训练的检测器与全监督方式训练的检测器相比,展示了具有竞争力的性能。

5.3 半监督学校

我们的方法避免了昂贵的3D标注,使更多数据可用于训练。我们研究了一个场景:在源域的大量未标注数据上预训练的检测器在目标域的少量标注数据上进行微调。使用KITTI-360和KITTI数据集作为源和目标域,表5显示了使用我们提出的自动标注方法在KITTI-360数据集上预训练,然后在KITTI数据集的部分数据上进行监督微调的检测器性能。结果表明,即使只使用50%的标注数据进行微调,性能也显著优于从头在全部数据上训练的检测器,显示了我们方法的广泛适用性。

6. 总结

在本文中,我们提出了一种名为VSRD的新型弱监督3D对象检测框架,该框架包括多视角3D自动标注和使用在自动标注阶段生成的伪标签对单目3D对象检测器进行后续训练。我们的方法与现有的弱监督3D对象检测方法相比展示了优越的性能。此外,它还通过使用部分标注数据进行半监督学习显示出显著的可扩展性。我们提出的方法允许利用丰富的2D注释来增强3D对象检测,而无需显式的3D监督,为该领域的进一步发展提供了一个有前景的途径。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。







请到「今天看啥」查看全文