专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

今晚开播 | CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF！

计算机视觉工坊 · 公众号 · · 2024-06-03 11:00

正文

本次分享我们邀请到了西北工业大学在读博士李昊，为大家详细介绍他们CVPR'24中稿的工作：

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding
项目主页 ： https://lifuguan.github.io/gpnerf-pages/
开源代码 ： https://github.com/lifuguan/gp-nerf
实验室主页 ： http://www.vision-intelligence.com.cn

直播信息

时间

2024年6月03日(周一)晚上20：00

主题

CVPR'24Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF！

直播平台

3D视觉工坊哔哩哔哩同步直播

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

李昊

目前是西北工业大学在读博士生，师从张鼎文老师和韩军伟老师 (IEEE Fellow)。现在在Baidu VIS部门实习，师从吴陈铭博士和王井东老师 (IEEE Fellow)。曾在之江实验室，网易和中科院自动化所等研究所和企业实习。此外，在TIP, CVPR等顶级期刊和会议发表发表多篇论文并获得Highlight和Oral等奖项。主要研究方向是基础模型，无监督学习和3D视觉(NeRF/3D-GS)

直播大纲

语义神经渲染(Novel View Synthesis, Neural Rendering)现有方法简介
GP-NeRF论文讲解
未来展望

参与方式

摘要

将神经辐射场（NeRF）应用于场景理解和表示的下游感知任务越来越受欢迎。大多数现有方法将语义预测视为一个额外的渲染任务，即“标签渲染”任务，以构建语义NeRF。然而，通过按像素渲染语义/实例标签而不考虑渲染图像的上下文信息，这些方法通常存在边界分割不清晰和对象内部像素分割异常的问题。为了解决这个问题，我们提出了一种新的流程——广义感知NeRF（GP-NeRF），它使广泛使用的分割模型和NeRF能够在统一框架下兼容工作，以促进上下文感知的3D场景感知。为了实现这个目标，我们引入了Transformer来联合聚合辐射和语义嵌入场，以便于新视角的渲染，并促进这两个场的联合体积渲染。此外，我们提出了两种自我蒸馏机制，即语义蒸馏损失和深度引导的语义蒸馏损失，以增强语义场的区分度和质量以及保持几何一致性。在评估中，如图1所示，我们在两个感知任务（即语义和实例分割）下进行了实验比较，使用了合成和真实世界数据集。值得注意的是，我们的方法在广义语义分割、微调语义分割和实例分割方面分别比SOTA方法提高了6.94%、11.76%和8.47%。

方法

我们提出了广义感知NeRF（GP-NeRF），这是一种新颖的统一学习框架，它将NeRF和强大的2D分割模块联合起来，以执行上下文感知的3D场景感知。如图2所示，GP-NeRF利用场聚合Transformer来聚合辐射场和语义嵌入场，并使用射线聚合Transformer在新视角中联合渲染它们。两个过程都在联合优化方案下执行。具体来说，我们在新视角中渲染丰富的语义特征而不是标签，并将它们输入到一个强大的2D分割模块中，以执行上下文感知的语义感知。为了使我们的框架能够兼容工作，我们进一步引入了两种新的自蒸馏机制：1）语义蒸馏损失，它增强了语义场的区分度和质量，从而通过感知头部实现改进的预测性能；2）深度引导的语义蒸馏损失，旨在监督语义场内每个点的语义表示并保持几何一致性。在这些机制下，我们的方法弥合了强大的2D分割模块和NeRF方法之间的差距，提供了一种与现有下游感知头部可能的集成解决方案。该工作可以总结为如下几点：

我们使用Transformer联合构建辐射和语义嵌入场，并促进对新视角下两个场的联合体积渲染。
我们提出了2D和深度引导的自蒸馏机制，以增强语义嵌入场的区分度和质量。
我们进行了全面的实验。结果表明，我们的方法可以在下游感知任务（即语义、实例）中超越现有的NeRF方法，无论是在泛化设置还是特定场景设置下。

渲染和训练过程。NeRF在每次迭代中只能渲染有限的个点，我们的方法也是如此。在渲染过程中，我们将采样点的所有语义特征堆叠成图像级特征，并一起输入到感知头部（见图3(b)）。然而，在每个训练批次中使用完全渲染的语义特征是不可能的。因此，如图3(a)所示，对于语义2D图，我们特别用新2D图

今晚开播 | CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF！

正文

直播信息

嘉宾介绍

直播大纲

参与方式

(adsbygoogle = window.adsbygoogle || []).push({}); 摘要

方法

请到「今天看啥」查看全文

摘要