清华&阿里最新开源XScale-NVS！用极致细节重建渲染整个滕王阁，提升40%！

计算机视觉life · 公众号 · · 2024-04-15 11:04

正文

请到「今天看啥」查看全文

以下文章来源于3D视觉之心

点击“ 计算机视觉life ”，选择“星标”

机器人AI干货第一时间送达

宏观结构和微观细节，不能两全？

现有三维视觉和新视角合成（NVS）技术在处理真实世界大规模场景时面临的多个关键局限性。

传统的基于明确表面的三维重建方法，如多视图立体（MVS），尽管在获取大规模结构方面表现出色， 但往往难以捕获场景的微观细节 。这类方法在构建三维模型时依赖于高分辨率的离散化过程，这限制了它们在处理细微纹理和小尺度特征时的有效性。此外，这些技术通常使用UV映射来纹理化模型，但在复杂或广阔的场景中，UV映射易受到畸变影响，这会在渲染过程中产生可见的伪影和质量退化。

隐式体积表示方法（如基于神经辐射场的 NeRF）提供了一种表达高空间分辨率的新途径，通过对整个体积场进行连续建模，能够从任意新视角渲染出细致的图像。然而，这些方法在实际操作中需要处理大量的体积数据， 这不仅计算成本高，而且在大规模场景中效率低下 。更重要的是，由于体积渲染依赖于沿视线对样本的积分， 它在处理复杂场景中的视图不一致性时常常导致渲染质量下降 ，例如在边缘或细节处出现模糊和失真。

我们的方法在GigaNVS上相对于最先进的方法将平均LPIPS降低了40%，将野生环境下跨尺度神经渲染的边界推向了前所未有的细节和真实感水平。总结起来，我们的主要贡献如下：

为了解决以上挑战，XScale-NVS 提出了 哈希特征化流形 的表示方法，通过对表面流形进行栅格化，显式地优先考虑多视角一致性，充分释放了体积哈希编码的表达能力。同时设计了一个延迟神经渲染框架，以高效解码表示，并提出了两种定制设计来更好地描述跨尺度细节。

另外还引入了 GigaNVS 数据集，用于评估实际大规模场景的跨尺度、高分辨率新视角合成， XScale-NVS 在 GigaNVS 上相对于 SOTA 平均 LPIPS 降低了 40%。

另辟蹊径

哈希特征化流形

如图2(a)所示，基于UV的方法，在形状高度复杂的大规模场景中经常遇到的严重扭曲的参数化，本质上导致3D表面上的特征分布杂乱，而没有保持特征共形性，因此导致了局部细节的拉伸和模糊的伪影。

如图2(b)所示，现有的基于显式3D离散化的表示仅为每个表面基元分配了一个单一的特征描述子，因此未能真实地描述表面基元内部的复杂细节（例如，图中紫色阴影部分的椭圆高斯函数）。

如图2(c)所示，对于隐式体积表示，体积渲染的权重分布在优化过程中分散，即存在许多多视角不一致但权重很高的样本（例如，红色和蓝色的点），这些样本污染了表面颜色的监督并通过传播不准确的颜色梯度误导了表面特征的调整。

为了解决上述限制，XScale-NVS 提出的哈希特征化流形，旨在通过利用多分辨率哈希编码和延迟神经渲染来探索更具表达力的基于表面的特征化方法。

与基于显式3D离散化的现有神经表示类似，首先使用现成的多视图结构光技术重建网格，作为场景的3D表面代理。然后，计算网格的包围体积，并使用体积多分辨率哈希编码对其进行特征化，这给我们带来了一个哈希特征化的体积。在整个优化过程中，我们利用网格光栅化器来计算每个像素的3D表面交点，并仅在表面交点处查询多分辨率哈希特征，而不是在冗余的体积中查询。在的明确指导下，可学习的哈希表被迫优先考虑具有最重要的精细尺度特征的多视角一致的表面区域，从根本上将多余的体积特征化转变为一个具有表现力的基于表面的特征化：

图2(d)的特征化：

相比于图2(a)，沿着像素射线采样单个表面交点，消除了表面颜色的歧义。
相比于图2(b)，利用表面感知哈希编码，能够有效捕捉次原始尺度的细节，无论离散化分辨率如何，都能展现出对大规模场景和跨尺度内容的出色可扩展性。
相比于图2(c)，在规则的3D体素网格上分配哈希特征，而不依赖于表面参数化，避免了UV-based特征化中的扭曲问题。

如上图所示为延迟神经渲染流程，可以定义为：

增强流形特征化

正如图3(b)所示，为了更好地表示跨尺度细节，引入 表面多重采样 和 流形变形 ，哈希特征化流形基本上代表了一个在初始表面附近可变形的锥体，使其更能够处理尺度变化，并更灵活地捕捉微观尺度的细节。

表面多重采样

考虑到一般大场景的跨尺度、野外观测，在每个像素点投射单个射线会忽视非结构化的尺度变化，导致模糊或混叠伪影，原因是在观察跨不同距离或分辨率时，观察表面点时像素颜色存在差异。

多重采样为每个像素投射多个射线，以获得一组表面交点。为此，我们对图像进行了光栅化，其中原始图像中的每个像素都用个像素的网格进行了超采样。然后通过分别查询每个样本的多分辨率哈希特征，并使用均值操作将它们汇总，来聚合多个表面交点的信息：

流形变形

由于直接对网格进行特征化，网格上的任何几何缺陷都会影响局部细节的表现能力。所以通过潜空间变形来进一步加强多视角一致性。具体来说，首先使用另一个具有可学习哈希表的哈希编码对表面进行特征化。然后，一个微小的 MLP 接受新的哈希特征和视角方向向量作为输入，在高维特征空间中变形初始表面：

且看效果

GigaNVS 数据集

包括七个真实世界大规模场景，专为评估跨尺度、高分辨率的新视角合成设计。每个场景包含从不同距离捕获的大量高清5K/8K多视图图像。这个数据集用来测试和展示所提出方法在处理大规模、高细节场景时的表现。

对比效果

消融实验

总结一下

XScale-NVS 设计了一种新的表示方法：哈希特征化流形（hash featurized manifold），为实现高保真的跨尺度神经渲染提供了有效的解决方案。这种方法在渲染过程中能够更加精确地捕捉和表达场景的细节，特别是在大规模的真实世界场景中。在自身的 GigaNVS 数据集上，与当前 SOTA 相比，展现出了明显的优势。

局限性 ：尽管新方法对网格分辨率显示出了较强的鲁棒性，但它仍然不能很好地处理由不正确的几何信息导致的场景的不完整性和遮挡问题。