为什么像ORB-SLAM，VINS等视觉SLAM开源算法里，精度上双目常常低于单目？

3DCV · 公众号 · · 2024-09-06 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：计算机视觉life

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

为什么像ORB-SLAM，VINS等视觉SLAM开源算法里，精度上双目常常低于单目？
双目能稳定获得尺度，讲道理不是应该精度高一些吗，还是，问题出在标定或特征跟踪上？这部分有些困惑，该图来源于fishmarch

本文由计算机视觉life 整理自知乎，原文链接

https://www.zhihu.com/question/443301664

ZZ豪

如果是euroc数据集，orbslam，本人钻研较深，可以略说一二

有一种可能性很大的原因就是，orbslam跑computestereo双目三维点计算的时候没有对视差角度进行限制，可想而知的是双目的baseline一般也就20cm左右(之后通篇假定为这个值)

但是呢orbslam的localmapping线程里有个createnewmap函数，里面对非双目点进行三角化的时候有个视差角余弦不超0.9998的限制，这个对于20cm的baseline来说深度最大近似为dmax＝0.2/sqrt(2*(1-0.9998))＝10米

ps:10-20m这种距离对于euroc的mh05数据集来说直接双目初始化都困难，所以移植orbslam3的鱼眼computestereofisheye到orbslam2跑euroc时用畸变图像而非修正过的去畸变图像去跑，你会发现这个问题的

然后呢localmapping这里实际用的baseline差不多是指两个有共视关系的关键帧之间的距离(实际上应该等效到朝向一致的两个虚拟相机上才严谨)，比起20cm很多都大多了。

然后呢，单目只能靠这里和初始化(使用的基线概念和这里的本质没有太大区别，所以也比双目初始化用的20cmbaseline要好)的时候来建点，比起双目一开始就用20cm的基线建了不少点，这里只是在弥补少建的点。

所以单目vio比双目vio的精度往往更好点，但是单目的稳定性就差一点，理由也是因为这个，正常追踪的时候他能建点的地方只有这里，而双目每帧自带20cm的baseline

还有一个可能的原因呢，就是单目前端耗时短，那么后端自然能在相同的图像间隔里计算同样的滑窗或规模的问题算得更快，那么跑一遍数据集，可能会出现几个关键帧加进后端的lba会算的不够快，没有赶在下一帧来之前就算完，那么下一帧计算位姿的上一帧即使是关键帧也不一定能用的是关键帧的位姿和对应lba优化过的地图点，而是要等到至少下一帧才能用，这样imu积分就可能要积至少两帧，预测的精度自然比积一帧要差。而双目的耗时更多，自然容易出现这种情况的概率也就越大。(不过orbslam的调度线程也可能会随着前端耗时＞图像间隔时间时也增多，但对于lba增加的计算耗时可能还是少一点)

精度和鲁棒性往往是鱼和熊掌，不能兼得的关系。

袁博融

自由：相机标定对视觉SLAM的影响

这篇应该把主要原因解释清楚了，我补充一下工程实践中的措施。

标定部分确实有很大改进空间。OAK相机去年底更新标定方案后，深度数据精度和我们的VSLAM精度都有提高。
比较敏感且容易变化的是外参，因此应对外参使用在线标定。内参不用在线标定，如果内参也有影响的话，那单目精度也不会高。
使用逆深度参数化。
在线跑完后离线做BA，因为这时用单目做，也能避免双目参数的影响。

余世杰

个人理解，实际上双目还是比单目效果好。但判断轨迹精度的过程中，单目占了便宜，会与真实值对比求取最适合本次单目记录轨迹的尺度因子，而双目就是实打实的轨迹，没有任何修改。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球 ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、

为什么像ORB-SLAM，VINS等视觉SLAM开源算法里，精度上双目常常低于单目？

正文

袁博融

余世杰

「 3D视觉从入门到精通 」 知识星球

请到「今天看啥」查看全文

「 3D视觉从入门到精通」知识星球