点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
读者个人理解
本文提出了一种无需相机姿态的稀疏视图合成方法。该方法通过构建和优化两个阶段来实现高质量的视图合成。在构建阶段,利用单目深度估计将像素反向投影到3D世界空间中。在优化阶段,通过检测训练视图和对应渲染图像之间的2D对应关系,对相机姿态和深度进行优化。该统一的可微框架包括相机姿态的配准和调整,同时本文还提出了高斯溅射中预期表面的可微近似。实验结果表明,该方法在仅使用3-6个稀疏视图的情况下,也能生成高质量的新视图,并且性能优于依赖相机姿态信息的方法。随着视图数量的增加,性能进一步提升,甚至超过了以前的即时NGP和高斯溅射算法。
图1:引入了一种稀疏视图合成方法,它不依赖于现成的估计相机姿势
创新点
构建与优化方法
:采用构建与优化方法,逐步构建解决方案,利用单目深度估计并投影像素回3D世界,并进行优化。
统一可微分渲染管道
:引入一个统一的可微分渲染管道,利用2D对应关系进行监督,同时进行相机姿态配准和调整,以及深度对齐。
表面渲染近似
:提出了一种新的表面渲染近似方法,利用射线与椭球壳的交点来定义高斯核的表面点,使得渲染出的表面点与屏幕空间点一致。
优化过程
:该方法逐步获得一个粗略解决方案,然后使用标准优化方法进行低通滤波和细节精炼。
方法
图3:稀疏视图合成方法概述。首先对第一个视图进行反向投影,然后依次对其余视图进行配准、调整和反向投影,从而得到一个粗解。这个粗糙的解决方案,然后通过标准优化细化,以重现精细的细节
算法流程
算法概述
:首先,我们假设有一系列连续捕获的n个RGB图像I及其对应的单目深度估计D。我们使用3D高斯体素作为场景表示,并致力于在未知相机姿态的情况下进行稀疏视图合成。首先,我们处理第一张图像I1,并将其外参矩阵P1设置为身份矩阵。然后,我们将I1中的每个像素后投影到3D世界空间作为3D高斯体素,以确保渲染图像和深度与I1和D1匹配。
后续视图处理
:我们假设前k张图像已经配准,然后考虑下一张未配准的视图Ik+1。我们首先将Ik+1的外参矩阵Pk+1初始化为Pk。然后,我们基于之前的重建来优化Pk+1,以配准新的视图。在调整阶段,我们优化所有先前配准的外参矩阵{P1, P2,...,Pk}和单目深度估计{D1,D2,...,Dk},以及Pk+1和Dk+1。最后,根据对齐的深度Dk+1,我们将Ik+1中的像素后投影到3D世界空间作为3D高斯体素。重复这个过程,直到处理完所有n张图像,我们就能获得一个粗糙的稀疏视图合成解决方案。
细节精炼
:最后,我们使用标准优化技术对粗糙解决方案进行细节精炼,以忠实地再现细节。在精炼之前,我们首先通过低通滤波去除错误的高频重建,以避免高频伪影。我们通过在每张图像中检测到的每个对象中只保留10%的体素,来达到低通滤波的效果。
优化框架
图4:假设第一个𝑘视图已经被配准,并说明了𝑘+第1个视图的配准、调整和反投影
详细介绍了用于稀疏视图合成的相机姿态和单目深度的联合优化框架。具体来说:
-
优化目标
:优化框架的目标是使渲染的图像与真实图像匹配,即对每个视图,渲染图像应与地面真值图像匹配。
-
对应检测
:为了实现这一目标,采用了基于对应关系的监督,利用现有的对应检测器检测训练视图和对应渲染图像之间的2D对应关系。
-
优化损失函数
:基于检测到的对应关系,构建了优化损失函数,包括对应损失、颜色损失和深度损失。其中,对应损失用于匹配检测到的对应点,颜色损失用于使渲染图像与真实图像颜色一致,深度损失用于调整单目深度,使其与渲染深度匹配。
-
优化过程
:优化过程包括相机姿态的配准和调整。配准阶段只优化当前视图的相机姿态,而调整阶段则同时优化所有先前已配准的相机姿态和单目深度。
-
优化效果
:通过该优化框架,实现了相机姿态和单目深度的有效联合优化,从而避免了仅使用单目深度进行稀疏视图合成的歧义。
可微表面渲染
图5:高斯喷溅的表面渲染图
图6:(a)地表点𝝁(s)与高斯核中心𝝁相对位置𝛿的不变性示意图。𝛿应该是平移和旋转不变量。(b)从积分重新参数化曲面点𝝁(s)的示意图
图7:由于相交测试导致梯度消除的图示
为了进行有效优化,需要将2D屏幕空间点的扰动传播到其对应的3D表面点。然而,Gaussian splatting表示是体素的,其中不存在明确的表面。因此,需要定义预期的3D表面点。先前工作简单地将每个高斯核的中心视为对应的表面点,但这种简化的模型并不一致,导致优化效果不佳。本文提出了一种更准确的近似方法,通过将每个高斯核的表面点定义为射线和高斯核椭球壳的交点,从而保证了一致性。此外,还提出了一个反向传播梯度的新参数化方案,以避免梯度抵消问题。通过这些方法,实现了对高斯 splatting 中预期表面点的可微分渲染,为基于对应关系的优化提供了基础。这一改进对于实现稀疏视图合成中的优化至关重要。
后处理和实现细节
通过先前的算法步骤,我们获得了一个稀疏视图合成的粗略解。为了减少高频噪声,我们在粗略解的基础上应用了低通滤波器。这可以去除由单目深度估计不准确导致的高频错误。随后,我们使用标准的优化技术对相机姿态进行优化,以忠实复现细节。
在实现细节方面
,我们使用NVIDIA RTX 3080 GPU进行视图配准和调整,时间通常需要几分钟,并且随着视图数量的增加而增加。使用标准的3DGS优化进行细化需要大约1小时。
在推理阶段
,我们仍使用3D高斯作为表示,因此速度与Kerbl等人的方法相同。
在性能指标方面
,我们的方法在训练视图数量增加时性能有所提升,优于标准视图合成方法,如Instant-NGP和3DGS。这表明我们的方法能够从稀疏的输入视图合成高质量的新视角图像。
实验结果
比较
:与无姿态方法(CF 3DGS、NoPe-NeRF、LocalRF)和需要姿态的方法(Instant-NGP、3DGS、FSGS、GNT)进行比较。
定量评估
:在Tanks&Temples数据集上测试视图的平均评估结果,n=3,6,12的情况。结果显示我们的方法优于其他无姿态方法,甚至超过了需要姿态的方法。
定性评估
:展示了使用3个、4个、6个和12个训练视图的定性比较结果,以及不同训练视图数量的影响。结果显示我们的方法在稀疏视图条件下仍能合成逼真的新视角图像。
消融研究
:进行了Ablation study来验证算法组件的有效性,结果显示我们的全模型取得了最佳指标。
图8:稀疏视图合成不同方法的定性比较
表1:Tanks&Temples 数据集的定量评估。
表 2:Static Hikes 数据集的定量评估。
表3:PSNR得分在测试视图上用于调查训练视图数量的影响。
表4:消融模型测试视图上的PSNR评分。
图9:训练视图数量效果的定性比较
图10:给定Tanks&Temples中的“博物馆”场景(总共100帧),使用6帧作为训练视图,其他帧用于测试。在同一测试视图上显示不同配置的综合结果。感兴趣的区域用箭头强调
主要贡献和未来工作展望
-
稀疏视图合成挑战
:文章总结了稀疏视图合成在计算机视觉和图形学领域面临的挑战,即如何仅从稀疏的输入图像(如3-6张)生成新视角图像,尤其是在相机姿态未知的情况下。
-
构建和优化方法
:文章提出了一个构建和优化的方法,通过使用单目深度估计构建初始解决方案,并通过优化相机姿态和深度对齐获得更准确的稀疏视图合成结果。
-
状态-of-the-art 结果
:实验证明,该方法在仅使用少量视图(如3-6张)的情况下,取得了 state-of-the-art 的结果,优于其他无姿态方法,甚至超过了需要已知相机姿态的方法。
-
未来工作展望
:文章提出了未来工作的展望,包括改进单目深度估计、结合新视角约束以提升视图合成质量,并将方法扩展到无序图像集合等。
参考
[1] A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。