【泡泡图灵智库】神经隐式重建的稠密RGB SLAM

泡泡机器人SLAM · 公众号 · 机器人 · 2023-04-26 07:45

正文

泡泡图灵智库，带你精读机器人顶级会议文章

标题：DENSE RGB SLAM WITH NEURAL IMPLICIT MAPS

作者：Heng Li, Xiaodong Gu,Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan

机构：HKUST，alibaba，SFU

来源：ICLR 2023

编译：zhuhu

审核：zh

这是泡泡图灵智库推送的第829篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，请后台留言申请授权

摘要

大家好，今天为大家带来的文章是 DENSE RGB SLAM WITH NEURAL IMPLICIT MAPS，在同步定位与映射(SLAM)中，使用神经隐函数来表示地图是一种新的趋势。一些开创性的工作在RGB-D SLAM上取得了令人鼓舞的结果。本文提出了一种神经隐式重建表示的稠密RGB SLAM方法。为了在没有深度输入的情况下达到这一具有挑战性的目标，我们引入了分层特征体来促进隐式重建解码。该设计有效地融合了不同尺度上的形状线索，便于地图重建。该方法通过匹配渲染的视频帧和输入的视频帧，同时解决摄像机运动和神经隐式映射问题。为了便于优化，我们在多视点立体的精神下进一步提出了光度学翘曲损失，以更好地约束摄像机的姿态和场景几何。我们在常用基准上对我们的方法进行了评估，并将其与先进的RGB和RGB-D SLAM系统进行了比较。我们的方法取得了比以前的方法更好的结果，甚至超过了最近的一些RGB-D SLAM方法。我们的源代码：https://github.com/HKUST-3DV/DIM-SLAM

主要工作与贡献

1）我们设计了第一个神经隐式重建表示的密集RGB SLAM，

2）为了更好地评估占有率，我们引入了分层特征体积，并引入了多尺度基于面片的翘曲损失来提高仅使用RGB输入的系统性能，

3）我们在基准数据集上取得了很好的结果，甚至超过了最近的一些RGB-D方法。

系统介绍

我们的框架的总体流程如图1所示。给定一段RGB视频作为输入，我们的方法旨在同时恢复3D场景地图和摄像机运动。我们用一个具有可学习的多分辨率特征体积的神经隐函数来表示场景地图。通过沿着视线对体网格中的特征进行采样，并使用MLP解码器对采样的特征进行查询，我们可以在给定估计的摄像机参数的情况下渲染每个像素的深度和颜色。由于这种绘制过程是可微的，我们可以通过最小化定义在光度学渲染损失和翘曲损失上的目标函数来同时优化神经隐式映射和相机姿势。

1. 隐式重建表达

多分辨率体素编码：直接使用MLP表示场景地图(将3D点映射到其占有率和颜色)面临着遗忘问题，因为MLP针对任何帧进行了全局更新。为了解决这一问题，我们为MLP配备了多分辨率体积{Vl}，这些体素在每个帧的可见区域上局部更新。这种分层结构比单一尺度的体积效果更好，因为在高分辨率体积上基于梯度的相机优化如果没有良好的初始化，容易产生次优解。相反，在从粗到精的结构中，低分辨率的体积可以在早期配准时增强3D空间的光滑性，而高分辨率的体积可以编码形状细节。

颜色和深度预测：MLP解码器Φ由具有32个特征通道的三个隐藏层，包含输出颜色和密度的两个heads组成，