本次分享我们邀请到了西北工业大学在读博士李昊,为大家详细介绍他们CVPR'24中稿的工作:
GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding
项目主页
:
https://lifuguan.github.io/gpnerf-pages/
开源代码
:
https://github.com/lifuguan/gp-nerf
实验室主页
:
http://www.vision-intelligence.com.cn
直播信息
时间
2024年6月03日(周一)晚上20:00
主题
CVPR'24Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF!
直播平台
3D视觉工坊哔哩哔哩同步直播
扫码观看直播,或前往B站搜索3D视觉工坊观看直播
嘉宾介绍
李昊
目前是西北工业大学在读博士生,师从张鼎文老师和韩军伟老师 (IEEE Fellow)。现在在Baidu VIS部门实习,师从吴陈铭博士和王井东老师 (IEEE Fellow)。曾在之江实验室,网易和中科院自动化所等研究所和企业实习。此外,在TIP, CVPR等顶级期刊和会议发表发表多篇论文并获得Highlight和Oral等奖项。主要研究方向是基础模型,无监督学习和3D视觉(NeRF/3D-GS)
直播大纲
-
语义神经渲染(Novel View Synthesis, Neural Rendering)现有方法简介
-
-
参与方式
摘要
将神经辐射场(NeRF)应用于场景理解和表示的下游感知任务越来越受欢迎。大多数现有方法将语义预测视为一个额外的渲染任务,即“标签渲染”任务,以构建语义NeRF。然而,通过按像素渲染语义/实例标签而不考虑渲染图像的上下文信息,这些方法通常存在边界分割不清晰和对象内部像素分割异常的问题。为了解决这个问题,我们提出了一种新的流程——广义感知NeRF(GP-NeRF),它使广泛使用的分割模型和NeRF能够在统一框架下兼容工作,以促进上下文感知的3D场景感知。为了实现这个目标,我们引入了Transformer来联合聚合辐射和语义嵌入场,以便于新视角的渲染,并促进这两个场的联合体积渲染。此外,我们提出了两种自我蒸馏机制,即语义蒸馏损失和深度引导的语义蒸馏损失,以增强语义场的区分度和质量以及保持几何一致性。在评估中,如图1所示,我们在两个感知任务(即语义和实例分割)下进行了实验比较,使用了合成和真实世界数据集。值得注意的是,我们的方法在广义语义分割、微调语义分割和实例分割方面分别比SOTA方法提高了6.94%、11.76%和8.47%。
方法
我们提出了广义感知NeRF(GP-NeRF),这是一种新颖的统一学习框架,它将NeRF和强大的2D分割模块联合起来,以执行上下文感知的3D场景感知。如图2所示,GP-NeRF利用场聚合Transformer来聚合辐射场和语义嵌入场,并使用射线聚合Transformer在新视角中联合渲染它们。两个过程都在联合优化方案下执行。具体来说,我们在新视角中渲染丰富的语义特征而不是标签,并将它们输入到一个强大的2D分割模块中,以执行上下文感知的语义感知。为了使我们的框架能够兼容工作,我们进一步引入了两种新的自蒸馏机制:1)语义蒸馏损失,它增强了语义场的区分度和质量,从而通过感知头部实现改进的预测性能;2)深度引导的语义蒸馏损失,旨在监督语义场内每个点的语义表示并保持几何一致性。在这些机制下,我们的方法弥合了强大的2D分割模块和NeRF方法之间的差距,提供了一种与现有下游感知头部可能的集成解决方案。该工作可以总结为如下几点:
-
我们使用Transformer联合构建辐射和语义嵌入场,并促进对新视角下两个场的联合体积渲染。
-
我们提出了2D和深度引导的自蒸馏机制,以增强语义嵌入场的区分度和质量。
-
我们进行了全面的实验。结果表明,我们的方法可以在下游感知任务(即语义、实例)中超越现有的NeRF方法,无论是在泛化设置还是特定场景设置下。
渲染和训练过程。NeRF在每次迭代中只能渲染有限的
个点,我们的方法也是如此。在渲染过程中,我们将采样点的所有语义特征
堆叠成图像级特征,并一起输入到感知头部(见图3(b))。然而,在每个训练批次中使用完全渲染的语义特征是不可能的。因此,如图3(a)所示,对于语义2D图
,我们特别用新2D图