专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

ACCV'24 | 三维重建谁言不败？探索黑暗和无纹理环境下的SfM！

计算机视觉工坊 · 公众号 · · 2024-10-25 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Neural Active Structure-from-Motion in Dark and Textureless Environment

作者：Kazuto Ichimaru, Diego Thomas, Takafumi Iwaguchi, Hiroshi Kawasaki

机构：Kyushu University、Fujitsu Defense & National Security Limited

原文链接：https://arxiv.org/abs/2410.15378

1. 导读

主动三维测量，特别是结构光(SL)由于其在弱光照明下对无纹理或等效表面的鲁棒性而被广泛应用于各个领域。此外，通过移动SL系统来重建大场景已经变得流行，然而，很少有实用的技术仅从图像中获得系统的精确姿态信息，因为大多数常规技术是基于图像特征的，这些特征在无纹理环境下不能被检索。在本文中，我们提出了一种基于图像集的同步形状重建和姿态估计技术，我们称之为主动SfM。为了实现这一点，我们提出了一个完整的体积形状优化框架，该框架将神经符号距离场(Neural-SDF)用于SL，其目标不仅是重建场景形状，而且还估计系统的每个运动的姿态。实验结果表明，该方法能够从只有投影图案的图像中实现精确的形状重建和姿态估计。

2. 引言

几十年来，主动三维测量已被广泛应用于自动驾驶车辆控制、人体分析、工业检测等领域。其中，主动立体视觉技术，特别是结构光（Structured Light, SL）技术，因其配置简单且精度高而得到广泛应用。另一方面，通过移动三维传感器并整合结果来重建大场景，在增强现实（Augmented Reality, AR）/虚拟现实（Virtual Reality, VR）应用中引起了广泛关注，例如智能手机进行房间重建或为水下环境绘制数字地图。为此，通常使用带有外部位置传感器（如惯性测量单元（Inertial Measurement Unit, IMU）或相机）的主动测量系统。具体而言，运动恢复结构（Structure-from-Motion, SfM）是一项关键技术，它仅通过图像集就能实现系统的精确定位。然而，当房间由低纹理/均匀墙壁构成或在探索极暗环境（如深海）时，该技术有时会失效。为以最少的设置解决此问题，可以考虑使用用于主动三维立体系统的相机来估计传感器本身的姿态。

在此配置中，基本问题是是否可能通过SL将图案投射到场景上，从观察到的投射图案中估计相机姿态；我们在本文中将其命名为主动运动恢复结构（Active SfM）。由于相机捕获的区域每帧都不同，如果没有纹理或处于黑暗环境中，则无法检索帧之间的对应关系，因此无法应用传统的SfM算法。请注意，即使可以使用全球导航卫星系统（Global Navigation Satellite System, GNSS）/IMU或其他传感器来获得粗略的传感器姿态，但其精度通常不足以进行精确的形状整合。

最近，神经辐射场（Neural Radiance Fields, NeRF）及其变体引起了广泛关注，并为许多计算机视觉任务带来了突破。它们通过直接优化深度神经网络（Deep Neural Networks, DNN），以端到端的方式最小化光度损失，在新视角合成、三维形状重建、超分辨率等方面取得了显著精度。一些研究还试图将图案投影整合到NeRF流程中，为SL系统引入神经场，然而，这些方法假设了精确的预校准和密集重建，这对于运动中的传感器而言是无法假设的。

在本文中，我们提出了一种新方法，使用基于NeRF变体的稀疏SL系统，在黑暗甚至无光照条件下解决主动SfM问题。具体而言，我们提出了一种神经符号距离场（Neural Signed Distance Fields, Neural-SDF），该方法可以同时根据SL系统投射的不可靠初始姿态的图案，估计场景的三维形状和移动相机的姿态。该技术基于专为SL设计的新型体积渲染流程和混合编码。得益于这些提出的方法，它能够在纹理很少的场景中工作，在最极端的情况下，甚至可以在完全没有环境光照的场景中工作。实验证明，所提出的方法可以从合成数据和真实数据的投射图案中解决主动SfM问题。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研] 。

3. 效果展示

基于运动的主动结构概念(主动SfM)。该系统由摄像机和投影仪组成。图像是在极其黑暗的环境中拍摄的，其中缺少纹理信息。我们的目标是从投影的图案中恢复场景形状和系统姿态。

左图:使用交叉激光投影仪的NeRF-Synthetic (Lego)场景进行基于ICP的姿态估计的失败案例。绿色箭头:地面真相相机构成。红色箭头:用稀疏重建的点云通过ICP估计相机姿态。注意，地面真实姿态用于初始化。右图:强力胶[26]特征与NeRF-Synthetic(乐高)场景匹配的一个失败案例，光照很少(没有检测到匹配)。注意，为了可视化，对比度增强了。

4. 主要贡献

我们的贡献如下：

——我们为主动SfM提出了一种新颖的Neural-SDF流程，该流程能够从SL系统的投射图案和不可靠的初始姿态中，实现运动中的SL系统的形状重建和姿态估计。

——为了追求精度和鲁棒性，我们提出了体积渲染流程和针对SL的混合编码技术。

——对合成数据和真实数据进行了综合实验，证明了所提出方法的可行性和有效性。

5. 方法

所提出的方法主要遵循NeuS流程，该流程包括符号距离场（Signed Distance Fields, SDF）网络和颜色网络，不同之处在于我们的流程具有投影仪参数、投射图案和照明参数。图3显示了所提出方法的流程。请注意，我们从流程图中省略了一些模块，如分层采样和方差网络，这些模块也被NeuS使用。

该流程的训练过程如下。粗体线条表示所提出方法的过程，而其他过程则几乎与常见的NeRF流程相同。

使用相机参数，从每个相机的光学中心随机采样光线。

在从近裁剪面到远裁剪面的光线上，以规则或加权间隔采样三维点。

将三维点传递给SDF/颜色网络，以获取点的密度和反照率。

使用带有图案投影的体积渲染来渲染图像。

计算渲染图像和真实图像（Ground Truth, GT）之间的光度损失。

使用Adam优化器更新网络参数和系统姿态，以最小化光度损失。

通过更新网络参数，SDF被优化以最小化投射图案与GT图像之间的差异，即隐式搜索图像-图案对应关系，并从视角计算场景深度。同时，优化系统姿态以最大化多视图深度一致性。

6. 实验结果

表2展示了定量比较的结果，图6展示了定性比较的结果。结果表明，在无光照且存在姿态噪声的条件下，所提出的方法达到了最高的准确性。光切片法在无光照噪声的低光环境中具有优势，然而无法进行密集重建，且在存在姿态噪声时，形状会受到严重破坏。LLNeRF同样能够处理低光照情况，但由于其并非专为形状重建而设计，因此会产生严重的漂浮物体现象。NeuS和NeuS+姿态估计在某些场景中能够生成合理的形状，但在无光照场景下却失败了。NeuS+SL仅在不存在姿态噪声时才能重建出精确的形状（请注意，在不考虑姿态噪声的情况下，NeuS+SL与ActiveSfM是相同的）。最后，ActiveSfM（我们的方法）在所有场景和情况下均成功重建出精确的形状，验证了所提出方法的可行性。

至于姿态估计的准确性，得益于模式投影带来的隐式深度监督，所提出的方法在所有场景中均比NeuS+姿态估计具有更高的准确性（如表3和图7所示）。

7. 总结 & 未来工作

本文中，我们提出了一种使用神经符号距离场（Neural SDF）的同时形状重建和姿态估计方法，用于结构化光（Structured Light，SL）系统，我们称之为主动结构光运动恢复结构（Active SfM）。为了实现这一目标，我们为结构化光系统提出了一种体积渲染管道，并引入了混合编码，以实现稳健的姿态估计和高保真形状重建。实验结果表明，所提出的方法仅利用投影图案的信息和合成数据集及真实数据集中粗略的初始姿态，即可有效地恢复场景几何结构。至于未来的工作方向，我们感兴趣的是神经符号距离场能否应对其他具有挑战性的条件，如散射、相互反射、遮挡等。同时，为了构建一个精确的海底视觉系统，解决由折射、衰减、体积散射引起的失真等许多其他问题也至关重要。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

这里给大家推荐一门我们最新的课程