专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
发现新西兰  ·  新西兰但尼丁在“招人”,打出的广告太有梗了 ·  2 天前  
发现新西兰  ·  刚刚开业!奥克兰中餐Fine ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

今晚开播 | CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF!

计算机视觉工坊  · 公众号  ·  · 2024-06-03 11:00

正文

本次分享我们邀请到了西北工业大学在读博士李昊,为大家详细介绍他们CVPR'24中稿的工作:

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding
项目主页 https://lifuguan.github.io/gpnerf-pages/
开源代码 https://github.com/lifuguan/gp-nerf
实验室主页 http://www.vision-intelligence.com.cn

直播信息

时间

2024年6月03日(周一)晚上20:00

主题

CVPR'24Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF!

直播平台


3D视觉工坊哔哩哔哩同步直播

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

李昊

目前是西北工业大学在读博士生,师从张鼎文老师和韩军伟老师 (IEEE Fellow)。现在在Baidu VIS部门实习,师从吴陈铭博士和王井东老师 (IEEE Fellow)。曾在之江实验室,网易和中科院自动化所等研究所和企业实习。此外,在TIP, CVPR等顶级期刊和会议发表发表多篇论文并获得Highlight和Oral等奖项。主要研究方向是基础模型,无监督学习和3D视觉(NeRF/3D-GS)

直播大纲

  1. 语义神经渲染(Novel View Synthesis, Neural Rendering)现有方法简介
  2. GP-NeRF论文讲解
  3. 未来展望

参与方式

摘要

将神经辐射场(NeRF)应用于场景理解和表示的下游感知任务越来越受欢迎。大多数现有方法将语义预测视为一个额外的渲染任务,即“标签渲染”任务,以构建语义NeRF。然而,通过按像素渲染语义/实例标签而不考虑渲染图像的上下文信息,这些方法通常存在边界分割不清晰和对象内部像素分割异常的问题。为了解决这个问题,我们提出了一种新的流程——广义感知NeRF(GP-NeRF),它使广泛使用的分割模型和NeRF能够在统一框架下兼容工作,以促进上下文感知的3D场景感知。为了实现这个目标,我们引入了Transformer来联合聚合辐射和语义嵌入场,以便于新视角的渲染,并促进这两个场的联合体积渲染。此外,我们提出了两种自我蒸馏机制,即语义蒸馏损失和深度引导的语义蒸馏损失,以增强语义场的区分度和质量以及保持几何一致性。在评估中,如图1所示,我们在两个感知任务(即语义和实例分割)下进行了实验比较,使用了合成和真实世界数据集。值得注意的是,我们的方法在广义语义分割、微调语义分割和实例分割方面分别比SOTA方法提高了6.94%、11.76%和8.47%。

方法

我们提出了广义感知NeRF(GP-NeRF),这是一种新颖的统一学习框架,它将NeRF和强大的2D分割模块联合起来,以执行上下文感知的3D场景感知。如图2所示,GP-NeRF利用场聚合Transformer来聚合辐射场和语义嵌入场,并使用射线聚合Transformer在新视角中联合渲染它们。两个过程都在联合优化方案下执行。具体来说,我们在新视角中渲染丰富的语义特征而不是标签,并将它们输入到一个强大的2D分割模块中,以执行上下文感知的语义感知。为了使我们的框架能够兼容工作,我们进一步引入了两种新的自蒸馏机制:1)语义蒸馏损失,它增强了语义场的区分度和质量,从而通过感知头部实现改进的预测性能;2)深度引导的语义蒸馏损失,旨在监督语义场内每个点的语义表示并保持几何一致性。在这些机制下,我们的方法弥合了强大的2D分割模块和NeRF方法之间的差距,提供了一种与现有下游感知头部可能的集成解决方案。该工作可以总结为如下几点:

  1. 我们使用Transformer联合构建辐射和语义嵌入场,并促进对新视角下两个场的联合体积渲染。
  2. 我们提出了2D和深度引导的自蒸馏机制,以增强语义嵌入场的区分度和质量。
  3. 我们进行了全面的实验。结果表明,我们的方法可以在下游感知任务(即语义、实例)中超越现有的NeRF方法,无论是在泛化设置还是特定场景设置下。

渲染和训练过程。NeRF在每次迭代中只能渲染有限的 个点,我们的方法也是如此。在渲染过程中,我们将采样点的所有语义特征 堆叠成图像级特征,并一起输入到感知头部(见图3(b))。然而,在每个训练批次中使用完全渲染的语义特征是不可能的。因此,如图3(a)所示,对于语义2D图 ,我们特别用新2D图







请到「今天看啥」查看全文