0. 这篇文章干了啥?
一句话总结:
Symphonies通过使用以实例为中心的表示增强了3D语义场景补全。
这篇文章提出了一种新的范式,集成实例查询以促进实例语义和捕获全局上下文。Symphonies在Semantic KITTI和KITTI - 360上分别取得了15.04和18.58 m Io U的SOTA结果。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
作者:Haoyi Jiang, Tianheng Cheng, Naiyu Gao, Haoyang Zhang, Tianwei Lin, Wenyu Liu, Xinggang Wang
机构:华中科技大学、地平线
原文链接:https://arxiv.org/abs/2306.15670
代码链接:https://github.com/hustvl/Symphonies
2. 摘要
3D语义场景补全(SSC)已成为自动驾驶中新兴而重要的任务,旨在预测体积场景内的体素占用情况。然而,当前的方法主要集中在体素级特征聚合上,而忽略了实例语义和场景上下文。本文提出了一种名为Symphonies(从实例到场景)的新范式,深入探讨了将实例查询整合到2D到3D重建和3D场景建模中。利用我们提出的串行实例传播注意力,Symphonies动态地编码了以实例为中心的语义,促进了图像域和体积域之间的复杂交互。同时,Symphonies通过高效融合实例查询捕捉场景上下文,从而减轻了几何模糊,如遮挡和透视误差,通过场景上下文推理。实验结果表明,Symphonies在具有挑战性的基准SemanticKITTI和SSCBench-KITTI-360上取得了最先进的性能,在mIoU得分方面分别达到了15.04和18.58,这些结果展示了该范式的有希望的进展。
3. 效果展示
体素建模( a )与Symphonies ( b )的比较。
传统方法主要依赖于基于逆透视映射( Inverse Perspective Mapping,IPM )的体素-像素投影和基于体素的特征聚合,导致几何歧义和计算冗余。相比之下,Symphonies利用实例查询作为中介来处理图像和体素特征,从而利用实例语义并增强场景的上下文理解。
Semantic KITTI val的定性可视化。
Symphonies一致地对汽车和行李箱等物体产生详细的预测,同时对建筑物和植被等结构保持连贯的布局。
4. 主要贡献
(1)引入了Symphonies,这是一种开创性的3D语义场景补全(SSC)范例,通过使用稀疏实例查询来建模实例为中心的语义,从而促进了通过串行实例传播注意力实现图像和体积特征之间的高效交互。
(2)Symphonies通过融合实例查询有效地捕捉全局场景背景,实现了对周围环境的整体理解。场景背景通过上下文场景推理和由提出的深度校正体素提案层提供的精炼几何形状,有助于减轻几何模糊。
(3)Symphonies在具有挑战性的SSC基准上明显超过了现有方法,在SemanticKITTI上达到了15.04的mIoU,在SSCBench-KITTI-360上达到了18.58的mIoU。这些结果突显了Symphonies在推动自动驾驶和场景理解方面的巨大潜力。
5. 具体原理是啥?
Symphonies框架包含几个关键组件,将RGB图像作为输入,并通过ResNet-50图像主干和一个实例感知可变形Transformer编码器提取多尺度2D特征F2D,增强图像平面上的全局和实例语义。深度校正体素提议层生成估计隐式曲面的初始体素特征。随后,由串行实例传播注意力组成的Symphonies解码器层促进图像、实例和场景之间的连续交互,迭代N次。分割头将体素特征采样到指定的分辨率,并预测每个体素的类logit。
随后的"
从实例生成场景
"的过程始于深度校正体素提案层,该层使用隐式表面上的图像特征初始化体素提案qp。多尺度图像特征F2D、场景特征qvox 和实例查询qins 通过我们提出的交响乐解码器层内的串行实例传播注意力传递。这个迭代过程不断地通过实例查询qins 引导将图像特征F2D 传播到场景特征qvox,同时从两种模态中聚合实例语义。分割头然后将场景特征上采样到目标分辨率,并在经过Atrous Spatial Pyramid Pooling (ASPP)模块后使用单个1×1×1卷积预测每个体素的类别对数。
深度估计。
从预训练的深度估计器获得的深度预测没有在图表中明确说明,以保持清晰度。它被用于推断体素提案层内的隐式表面并在场景体积中计算实例参考点。具体而言,我们采用预训练的Mobilestereonet作为深度估计器,与VoxFormer相配合。
实例感知图像编码器。
实例感知图像编码器在缺乏直接实例级监督的情况下,对整合实例语义至关重要,它采用了一个能够通过关注可变形参考点捕捉各种实例周围长程依赖的可变形Transformer。此外,它通过使用来自全景分割的MaskDINO的预训练权重,增强了其实例感知性。
深度校正体素提议层示意图。
6. 实验结果
在SemanticKITTI和SSCBench-KITTI-360数据集上对Symphonies与最新的基于相机的方法进行了全面比较。在SemanticKITTI和SSCBench-KITTI-360上,分别实现了2.72和4.77的显著改进。Symphonies在实例类别中展现了特别的优秀,例如建筑物、汽车、人物和自行车。这突显了它在捕捉和建模复杂实例语义方面的能力。虽然VoxFormer在SemanticKITTI上取得了稍微更高的IoU,但其采用了两阶段训练和额外的粗糙占用预测网络,破坏了端到端训练,并引入了额外的几何模糊。这种复杂性影响了其鲁棒性,特别是在KITTI-360上。Symphonies的优越性在SSCBench-KITTI-360基准测试中变得更加明显,它以4.77的显著优势超过了其他基于相机的对手,这归因于充足的数据样本和高质量的标注。此外,尽管LiDAR在距离上具有更精确的位置感知,但Symphonies甚至在mIoU方面也超过了基于LiDAR的方法。
消融实验,验证每个模块的效果。
7. 总结 & 未来工作 & 限制性
Symphonies是一种新颖的三维语义场景补全范式。Symphonies有效地整合了来自图像和体积的实例中心语义和场景背景,解决了以往基于体素的建模方法中存在的几何歧义的局限性。
作者认为,在Symphonies中融合实例中心表示将有助于未来的研究,特别是在UniAD的端到端范式的背景下,并推动自动驾驶。
但是缺乏实例级别注释之类的局限性会影响基于实例的方法的性能。Symphonies未来的努力旨在将这种范式扩展到多视角和时间场景。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、