专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
中核集团  ·  中核集团一周要闻上新! ·  昨天  
中核集团  ·  卓越绩效大家谈⑥ ·  昨天  
兰州大学萃英在线  ·  图说 | 新学期,I'm ready! ·  昨天  
兰州大学萃英在线  ·  月台 | 吾心若安 何日非“年”? ·  2 天前  
四川大学  ·  川大新学期,昂扬起航! ·  昨天  
四川大学  ·  川大新学期,昂扬起航! ·  昨天  
51好读  ›  专栏  ›  3DCV

浙大新作!无需复杂训练!LoGS:通过高斯分布进行视觉定位!

3DCV  · 公众号  ·  · 2024-11-06 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images

作者:Yuzhou Cheng, Jianhao Jiao, Yue Wang, Dimitrios Kanoulas

机构:University College London、Zhejiang University、

原文链接:https://arxiv.org/abs/2410.11505

1. 导读

视觉定位包括估计查询图像的6-DoF(自由度)相机姿态,这是各种计算机视觉和机器人任务的基本组成部分。本文介绍了LoGS,一种基于视觉的定位管道,利用三维高斯分布(GS)技术作为场景表示。这种新颖的表示允许高质量的新颖视图合成。在映射阶段,首先应用运动结构(SfM ),然后生成GS映射。在定位过程中,通过图像检索、局部特征匹配和PnP求解器获得初始位置,然后在GS地图上通过综合分析获得高精度姿态。在四个大规模数据集上的实验结果表明,该方法在估计相机姿态方面具有很高的精度,并且在具有挑战性的少镜头条件下具有鲁棒性。

2. 引言

在一个日益自动化的世界中,机器人理解和导航其周围环境的能力对于众多应用至关重要,这些应用从自动驾驶车辆和扩展现实(XR)到工业自动化和灾害响应等不一而足。视觉定位是这些能力的核心,它使机器人能够准确确定其六自由度(6-DoF)位置和方向。当前的视觉定位方法主要分为三大类:绝对姿态回归(APR)、基于结构的方法和分析-合成方法。

APR通过神经网络直接估计相机姿态,但在准确性和泛化能力方面需要改进。基于结构的方法包括基于特征匹配(FM)和场景坐标回归(SCR)。FM通过图像投影与点云中空间坐标之间的对应关系来确定2D-3D对应关系,而SCR则通过训练好的神经网络直接预测每个像素的这种对应关系。通常,像PnP-RANSAC这样的几何求解器会根据这些2D-3D对应关系来估计相机姿态。FM流程已被广泛采用,但如果模型经过足够的数据训练,其准确性通常低于SCR。然而,许多SCR网络是专门为定位而设计的,这给机器人带来了额外的负担。

最近,iNeRF作为一种分析-合成方法出现,它通过迭代反转神经辐射场(NeRFs)来对齐相机姿态。尽管如此,这些方法由于渲染速度慢而受到时间限制。3D高斯溅射(GS)是一种颠覆性的新视角合成技术,它实现了可比的渲染质量和实时渲染。GS通过将一组高斯椭球体光栅化来近似场景的外观。使用3DGS作为地图表示的分析-合成定位已经开始受到关注。然而,它们尚未在大规模数据集上进行测试,也缺乏与其他类别基线的比较。

3. 效果展示

中值误差姿势图(SfM地面真实全训练)。每个图的左下区域是原始图像。右上部分对应于来自高斯分布和估计姿态的渲染图像。前7个图来自7-scenes数据集,后两个图来自剑桥地标数据集。

4. 主要贡献

本文的贡献有三方面:

• 我们提出了一种以3DGS为核心地图表示的新颖视觉定位流程,该流程以分层方式运行。

• 我们在四个真实世界的全/少量样本基准上进行了大量实验。LoGS在这些数据集上要么与现有基线持平,要么设立了新的基线。

• 我们证明了在GS地图形成中添加深度线索和正则化策略的实际效果,以及在光度残差比较中添加不同掩蔽的有用性。

5. 方法

本文介绍了一种新颖的视觉定位流程,称为LoGS,它采用GS作为基础地图结构。特别是,LoGS解决了与数据可扩展性相关的挑战。正如我们所追求的:“你不需要很多就能有所作为。”仅用几十张甚至几张图像训练环境表示通常可以缓解数据稀缺问题并降低资源要求,但代价是准确性下降。这种少量样本设置也测试了流程的鲁棒性和通用性,而上述许多基于神经网络的方法往往在这种设置中失败。相反,我们的方法仅使用0.5%到1%的训练图像就优于当前最先进技术(SoTA)。例如,在7-scenes数据集的CHESS场景中,我们仅使用4000张图像中的20张,就实现了0.5厘米的中位平移误差和0.16°的中位旋转误差。这对于需要快速部署的实际应用至关重要。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

我们通过使用高级特征匹配进行运动恢复结构(SfM)来获得用于GS地图初始化的点云。然后,我们利用深度线索和正则化策略来构建高分辨率GS地图。LoGS在定位开始时通过SfM点云上的PnP-RANSAC估计粗略姿态。然后,LoGS通过最小化查询图像与GS地图上渲染图像之间的光度损失来获得异常准确的最终姿态。我们还提出了掩蔽策略来选择最具代表性的像素进行残差比较。我们的流程在四个涵盖室内和室外环境的大规模定位基准上实现了SoTA准确性。

6. 实验结果

7-scenes:表I的每个单元格分别包含中位平移误差(以厘米为单位)和中位旋转误差(以度为单位)。表格左侧显示了每种方法在全训练集上获得的定位精度,而右侧显示了少样本训练集的精度。随着训练数据的减少,所有方法的定位误差都会增加。在如此极端条件下实现准确定位,证明了系统的稳定性。在所有数据中,LoGS在七个场景中均取得了最佳结果。当仅使用少量图像时,它在多个场景中优于其他方法,在PUMPKIN场景中的中位旋转误差几乎与最佳结果相同,而在STAIRS场景中,平移误差和旋转误差与FSRC相比存在相对差距。经分析,我们认为这是由于1)楼梯中多层台阶颜色相似、结构重复,以及2)初始姿态估计存在显著偏差,这两点共同导致模型收敛到局部最优解。

我们还使用SfM真实值进行训练,并获得了所有7个场景的中位误差结果(见表II)。Brachmann等人[44]指出,在7-Scenes数据集上,一种真实值相比另一种并没有显著优势。然而,不同的定位方法根据所使用的类型显示出不同的准确性。此外,NeRF合成方法[19]、[20]已经证明,使用SfM真实值渲染的图像往往具有更高的质量,我们在GS地图上也观察到了同样的现象。LoGS为使用完整数据训练的合成分析法设定了新的基线。仅使用几十张图像,我们发现LoGS的中位平移误差约为1厘米(除STAIRS场景外)。这是一个非常令人印象深刻的结果,因为所实现的精度与使用百倍以上数据训练的SCR方法相当。

Mip-NeRF 360与LLFF:表III展示了iNeRF、iComMa和LoGS在LLFF和Mip-NeRF 360数据集上的成功率。iNeRF和iComMa极大地依赖于姿态初始化。δs对应最小边距初始化,其中平移量在单位上随机设置为±[0, 0.1],旋转角度在度数上随机设置为±[0, 20]。δm对应中等边距初始化,其中平移量随机设置为±[0.1, 0.2],旋转角度设置为±[20, 40]。我们首先遵循与iNeRF和iComMa相同的拆分设置,其中大部分图像用于地图构建,而仅五张图像用于定位。LoGS在测试五张图像时完美解决了这一定位问题,实现了100%的召回率,旋转误差小于5度,平移误差小于0.05单位。发现这一点后,我们进一步探索了一个更加困难的少样本设置,使用Mip-NeRF 360数据集,通过从每个场景中均匀选择十分之一的数据进行训练(从12到31张图像),其余数据保留用于测试。对于LLFF数据集,五分之一的数据用于训练(从4到12张图像)。即使在这种姿态图像稀缺的情况下,LoGS的成功率也高于其他两种方法,显示出其在精确姿态估计方面的卓越能力。我们在这两个数据集上取得成功,部分归功于新的训练损失,它显著提高了GS地图的渲染质量。

Cambridge Landmarks:表IV总结了中位姿态误差(以厘米和度为单位)。总体而言,LoGS在全数据集训练上展示了相对于最先进的基于特征匹配的方法的精度提升。然后,我们用大约1%的数据测试了LoGS。NA表示失败:中位平移误差大于500厘米。首先,值得注意的是,许多使用神经网络作为地图框架的方法,如DSAC*,都失败了。这是因为这些方法采用复杂的网络结构来增强学习能力,这导致在小训练集上泛化能力差。然而,我们在四个场景中取得了最佳精度,设定了新的基准。总体而言,LoGS在大规模室外场景中,即使训练数据有限,也表现出了鲁棒性。我们在SHOPFACADE场景中的“失败”主要是因为它是一个角落,三张简单的RGB图像使得3DGS难以确定深度,导致最终地图中的阴影重叠较少。

7. 总结 & 未来工作

本文通过探索使用3DGS作为地图表示的视觉定位,拓宽了移动机器人学[45]–[48]的边界。场景坐标回归和绝对姿态回归可以在拥有大量姿态图像的情况下准确估计姿态,但在训练视角不足时往往会失败。相比之下,基于特征的方法可以在两种条件下预测姿态,但准确性较低。我们的LoGS管道通过优化初始点云、损失函数和正则化方法,实现了从GS地图的高精度图像渲染。在此基础上,LoGS结合了多个掩码,选择了最具代表性的像素来比较RGB(D)通道上的光度损失,并利用梯度下降从初始估计中获得精确姿态。我们的方法在四个大规模数据集的全样本和少样本设置中均优于基线,取得了前沿结果。未来,更精细的GS重建(例如光照变化)、新的掩码策略以及减少内存并提高定位速度的GS地图压缩等方向可以改进这项工作。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文


推荐文章
中核集团  ·  中核集团一周要闻上新!
昨天
中核集团  ·  卓越绩效大家谈⑥
昨天
兰州大学萃英在线  ·  图说 | 新学期,I'm ready!
昨天
兰州大学萃英在线  ·  月台 | 吾心若安 何日非“年”?
2 天前
四川大学  ·  川大新学期,昂扬起航!
昨天
四川大学  ·  川大新学期,昂扬起航!
昨天
刑侦案审  ·  网络空间主权的国内法建构
7 年前
1626潮流精选  ·  没想到年度联名之最竟然是这个品牌!
7 年前