0. 这篇文章干了啥?
神经辐射场(NeRF)作为一种通用且精确的现实世界场景三维表示方法,已经取得了巨大成功,这促使其在众多领域的日常和工业应用中得到了广泛应用。NeRF剩余的关键需求之一是其向动态场景的扩展。现有的动态NeRF方法大致可分为两类。一类是学习变形场以实现运动扭曲(如D-NeRF和TiNeuVox)。另一类是不考虑运动先验,直接在特征空间中插值时间(如DyNeRF和KPlanes)。然而,这些方法往往忽略了动态辐射场作为时间状态序列的特性,从而错过了充分利用时间上下文信息的机会。
在本文中,我们从控制理论中汲取灵感,将四维辐射场建模为具有时变状态的动态系统。该动态系统的状态估计来自两个知识来源:基于输入数据的观测和基于系统物理动力学的预测。仅依靠这两个知识来源中的任何一个都无法获得最佳状态估计。一方面,观测值(如之前动态NeRF工作中常用的)由于动态场景的离散时间采样而固有地存在误差。另一方面,预测受假设运动模型正确性的支配,并可能在真实动态场景中难以保持准确性。
为了最大化观测和预测的综合潜力,我们引入了一个高效的即插即用卡尔曼滤波器模块,以优化我们动态系统的状态估计。我们展示了我们的插件卡尔曼滤波器引导变形场。我们将4D辐射场建模为单状态系统,其中状态表示为当前帧变形的dxti。与仅考虑当前帧系统观测的普通变形场相比,我们的方法通过引入基于运动方程的预测分支,融合了来自先前帧的更丰富信息。鉴于缺乏关于场景运动的先验轨迹,我们采用局部线性运动。
观测和预测都使用可学习的卡尔曼增益进行加权,以计算精确的变形估计。在训练的初始阶段,预测主要影响过程,有助于具有显著运动的帧的收敛。在训练的后期阶段,观测占据主导地位,从而能够恢复更精确和更细致的运动细节。
根据估计的变形,将真实空间中的所有点扭曲到与时间无关的规范空间中。为了进一步提高我们双分支可变形模型的性能,我们采用了一种高效的三平面空间表示法来对规范空间进行编码。实验证据表明,在我们的实现中,这种表示法允许使用仅包含两层的浅层观测MLP。同时,我们通过在规范空间中正则化辐射场的学习,提高了观测MLP的扭曲能力。
下面一起来阅读一下这项工作~
1. 论文信息
标题:KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter
作者:Yifan Zhan, Zhuoxiao Li, Muyao Niu, Zhihang Zhong, Shohei Nobuhara, Ko Nishino, Yinqiang Zheng
机构:东京大学、京都大学、上海AI Lab
原文链接:https://arxiv.org/abs/2407.13185
代码链接:https://github.com/Yifever20002/KFD-NeRF
2. 摘要
我们引入了KFD-NeRF,这是一种新颖的动态神经辐射场,它集成了基于卡尔曼滤波的高效高质量运动重建框架。我们的核心思想是将动态辐射场建模为一个动态系统,其随时间变化的状态基于两种知识来源进行估计:观测和预测。我们引入了一种新颖的插件卡尔曼滤波引导变形场,该变形场能够从场景观测和预测中实现准确的变形估计。我们使用浅层多层感知机(MLP)进行观测,并将运动建模为局部线性,以通过运动方程计算预测。为了进一步提高观测MLP的性能,我们在规范空间中引入了正则化,以促进网络学习不同帧之间变形的能力。此外,我们采用了一种高效的三平面表示法对规范空间进行编码,实验证明该表示法能够以高质量快速收敛。这使得我们能够使用更浅的观测MLP,在我们的实现中仅包含两层。我们在合成数据和真实数据上进行了实验,并与过去的动态NeRF方法进行了比较。我们的KFD-NeRF在可比的计算时间内展示了相似甚至更优的渲染性能,并在充分训练后实现了最先进的视图合成性能。GitHub页面:https://github.com/Yifever20002/KFD-NeRF。
3. 效果展示
4. 主要贡献
综上所述,我们的贡献如下:
1)通过将卡尔曼滤波器集成到变形场公式中,首次将4D辐射场建模为动态系统,从而得到了一种插件式、高效的变形估计方法;
2)KFD-NeRF,一种新颖的可变形NeRF,结合了卡尔曼滤波器插件和三平面空间表示法,并采用了一种新颖的策略,即逐步释放时间信息以促进动态系统的学习;
3)在规范空间中进行正则化,以增强浅层观测MLP的学习能力。与动态NeRF相比,我们的所有设计在合成数据和真实数据上都取得了最先进的结果。
5. 基本原理是啥?
图3展示了KFD-NeRF完整流程的三个阶段。在本节中,我们首先将分析使用变形场作为运动表示相对于特征插值的优势。然后,我们将基于卡尔曼滤波器介绍KFD-NeRF,以实现准确的变形估计。最后,我们将讨论空间重建细节、训练策略以及正则化的引入。
6. 实验结果
由于合成数据和真实数据在格式上的差异,我们精心选择了前沿的基线方法,通过比较实验来全面验证我们的方法。对于合成数据,我们测试了基于变形的方法D-NeRF(基于MLP的空间表示)、TiNeuVox-B(基于体素网格的空间表示)、NDVG(基于体素网格的空间表示)和4D-GS(基于高斯点的空间表示),以及基于特征插值的方法KPlanes和V4D。对于真实数据,除了TiNeuVox-B和KPlanes外,我们还进一步比较了多视图视频重建方法MixVoxels。我们在单个GeForce RTX3090上训练了所有这些方法。表2详细列出了我们和其他方法的训练时间和参数消耗。
我们对KFD-NeRF与这些基线方法进行了详尽的定性和定量比较。报告了三个主要指标,即峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习到的感知图像块相似性(LPIPS)。为了提供更直观的结果,我们进一步计算了“平均”度量,它是MSE = 10−PSNR/10、√1 − SSIM和LPIPS的几何平均值。定量比较结果请参见表1。
7. 局限性 & 总结
局限性。我们的方法依赖于在规范空间中良好重建的辐射场,在我们的流程中,该辐射场由Lco引导。然而,如果所选的规范空间与其他帧相比存在显著的尺度变化甚至拓扑变化,这种设计将部分失效。我们注意到,一些工作专注于解决辐射场重建中的尺度或拓扑问题。然而,这些问题并不是本文的主要焦点,我们将在未来的工作中进一步探索这些问题,以完善我们的模型。
结论。在本文中,我们提出了KFD-NeRF,这是一种基于卡尔曼滤波器的NeRF方法,用于4D动态视图合成。我们将动态辐射场建模为控制理论中的动态系统,并使用卡尔曼滤波器根据观测和预测来估计变形状态。我们进一步通过高效的三平面编码规范空间和在规范空间中正则化形状来增强观测。通过我们的时间训练策略和新推导的流程,KFD-NeRF在多种动态NeRF方法中实现了最先进的视图合成性能。我们希望4D辐射场的动态系统建模能够激励研究人员探索运动上下文信息。KFD-NeRF有望激发人们利用控制理论和视觉状态估计中现有的序列方法,以进一步提高4D视图合成和变形估计任务的性能。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、
无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、
LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、
MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等
。
▲长按扫码学习3D视觉精品课程