17年9月来自普林斯顿、斯坦福和慕尼黑工大的论文“Matterport3D: Learning from RGB-D Data in Indoor Environments”。
访问大型、多样化的 RGB-D 数据集对于训练 RGB-D 场景理解算法至关重要。然而,现有数据集仍然只覆盖有限数量的视图或有限的空间规模。本文介绍 Matterport3D,这是一个大型 RGB-D 数据集,包含 90 个建筑物规模场景的 194,400 张 RGB-D 图像中的 10,800 个全景视图。注释提供表面重建、相机姿势以及 2D 和 3D 语义分割。精确的全局对齐和全面、多样化的整个建筑物全景视图集,可实现各种监督和自监督计算机视觉任务,包括关键点匹配、视图重叠预测、颜色法线预测、语义分割和区域分类。
如图所示:Matterport3D 数据集提供涵盖 90 栋建筑物的视觉数据,包括 HDR 彩色图像、深度图像、全景天空盒、纹理网格、区域布局和类别以及目标语义分割。
添加图片注释,不超过 140 字(可选)
Matterport 数据采集过程使用安装在三脚架上的摄影机装置,该装置上有三个彩色和三个深度摄像头,分别指向略微向上、水平和略微向下。对于每个全景图,它都会围绕重力方向旋转到 6 个不同的方向,在每个方向停下来从 3 个 RGB 摄像头中的每一个获取 HDR 照片。3 个深度摄像头在装置旋转时连续获取数据,这些数据经过整合以合成与每个彩色图像对齐的 1280x1024 深度图像。每个全景图的结果都是 18 个 RGB-D 图像,投影中心几乎重合,高度大约与人类观察者的高度相同。
对于数据集中的每个环境,操作员都会在整个环境的可步行平面图中以大约 2.5 米的间距均匀地捕获一组全景图(如图所示)。用户使用 iPad 应用程序标记窗户和镜子,然后将数据上传到 Matterport。Matterport 随后通过以下方式处理原始数据:1) 将每个全景图中的图像拼接成适合全景观看的“skybox”,2) 使用全局束调整(BA)估计每个图像的 6 DoF 姿势,以及 3) 重建包含环境所有可见表面的单个纹理网格。
添加图片注释,不超过 140 字(可选)
此过程为每个场景生成一组 1280x1024 的 RGB-D 图像(HDR 中的颜色),每个图像都有 6 DoF 相机姿势估计,以及同一全景图中每组 18 张图像的skybox,以及整个场景的纹理网格。总而言之,数据集包括 90 座建筑物,总共包含 194,400 张 RGB-D 图像、10,800 张全景图和 24,727,520 个纹理三角网格;提供使用 [21] 和 [25] 获得的纹理网格重建。
RGB-D 全景图
。以前的全景图数据集要么根本没有提供深度 [42],要么提供从网格合成的近似深度 [1]。Matterport3D 包含对齐的 1280x1024 彩色和深度图像,用于 18 个视点,覆盖约 3.75sr(除北极和南极以外的整个球体),以及为向外看的视图重建的“skybox”图像,与以全景图中心为中心的立方体侧面对齐。这些 RGB-D 全景图为识别场景类别、估计区域布局、学习上下文关系等提供了机会。
精确的全局对齐
。以前的 RGB-D 数据集提供了有关相机姿势全局对齐的有限数据。一些针对 SLAM 应用的数据集 [8] 提供了覆盖部分房间的跟踪相机姿势 [30] 或单个房间的估计相机姿势 [7],Armeni [2] 提供了 3 栋建筑的 6 层楼的全局标定相机姿势。Matterport3D 提供的全局对齐图像覆盖了 90 栋重建建筑的所有楼层。虽然没有该数据集的真实相机姿势,因此无法客观地测量误差,但主观地估计相应表面点之间的平均校准误差为 1 厘米或更小。有些表面错位大到 10 厘米或更大,但这种情况很少见,而且通常发生在视点相隔几米的图像对中。
全面视点采样
。以前的数据集要么包含一小组围绕“摄影视点”[35] 视图捕获的图像,要么包含一系列旨在近距离扫描表面的视频图像 [7]。数据集包含从视点空间的全面、稀疏采样中捕获的全景图像。全景图像的间距几乎均匀,间隔为 2.25m ± 0.57m,因此大多数合理的人类视点都在全景中心 1.13m 以内。这种对视点空间的全面采样为了解机器人或可穿戴传感器在导航过程中可能遇到的任意视点所见场景提供了机会。
固定相机