专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

视觉定位VPS的现状与未来

3D视觉工坊 · 公众号 · · 2025-02-15 00:00

正文

作者：李城 | 来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

一、前言

VPS全称为Visual Positioning Service/System，即视觉定位服务/系统。手机端(移动时代）的VPS首次出现时间节点为2019年，这一年Google 发布了其产品“Google Maps AR（测试版）”，该产品使用 VPS技术通过相机图像在户外可以实现任意视角的定位与定向。

同样是作为6dof解算的方案，那么VPS、SfM、SLAM还有VO的关系如下图所示：

之前在《 VPS和GPS、SLAM的爱恨情仇》这篇文章中我已经对三者的区别与联系做了阐述，这里再强调一点其是VPS作为全局定位手段，相对于其他三个不会产生误差累积。

二、空间计算的核心

提到VPS自然要说到之前的热词“空间计算”，这个时候很多人可能存在疑问：为什么使用 VPS 而不是 GPS、信标或 QR 码等其他系统？有以下主要原则指导我们做出这样的选择：
(1)室内定位精度
(2)低成本
(3)多种设备可用性

GPS：是一种低精度空间定位解决方案，是以米为单位的误差；同时在城市区域由于高楼的出现容易出现多路径效应，在室内是不可用状态,VPS相比于GPS的定性表现如下：

磁场：是一种以中等精度进行空间定位的解决方案，因为它利用目标位置的磁场（类似于 VPS 对视野的作用）。它利用边缘计算，但要求设备配备磁罗盘（并非所有设备都配备）。它需要情境化/校准。对于所有空间计算用例来说，它不够精确。

Wifi：是一种中等精度的空间定位解决方案，与 GPS 相反，Wifi 不是全球分布的，因此系统只有在存在现有 Wifi 热点的情况下才能工作，需要校准。它对于所有空间计算用例来说都不够精确，并且对 WiFi 网络基础设施的更新非常敏感。

信标：是一种中等精度的空间定位解决方案，利用设备的蓝牙/Wifi 硬件。缺点是，与 GPS 和 VPS 相比，它成本高昂（设备成本 + 安装成本），并且需要维护（电源）和情境化/校准。对于所有空间计算用例来说，它不够精确。

QR码/视觉标记：这是 AR 中最古老的技术之一，是高精度空间定位的解决方案。但是marker 的张贴场景容易受限，且不具备沉浸感。

三、VPS现有方法论

视觉定位技术可以分为基于地图的和基于非地图的方法，大致可以分为以下几种方案：
(1)基于场景结构(Structure-based)
(2)基于场景结构和图像检索(Structure-based with image retrieval)
(3)场景点回归(Scene point regression)
(4)绝对位姿回归(Absolute pose regression)
(5)位姿内插(Pose interpolation)
(6)相对位姿估计(Relative pose estimation)

(1)(2)(3)属于基于地图的重定位技术，(4)(5)(6)属于基于非地图的；而基于非地图的重定位方法，虽快速轻量但是精度难以满足需求，只能提供粗略的定位。方法(3)采用DNN网络可以直接建立2D像素点和3D点的关联，从而计算查询图像的位姿，该方法类似于基于场景结构的方法，但是该方法在小场景可以具备较高的精度，对于大场景地图的构建，鲁棒性和精度有待提高。

四、国内外持有VPS技术的公司

(1)国内

i.视辰

目前国内创业公司里面算是做的比较好的

采集设备：gopro max 终端设备：支持手机和眼镜

ii.华为

华为VPS SOP如下图所示：

注：来源华为云地图服务产品介绍

iii.商汤

OpenXRLab pipeline如下:

openxrlab 2022年开源最齐全XR平台，给高校和从业人员奠定了基石。

iv.易现

设备：支持手机和全景设备构建地图

v.悉见

已亡

vi.wayz

采集设备：自研设备激光+5个fisheye 、手机、全景相机

终端设备：支持手机和眼镜

并发：qps 单机可达到20

vii. Neogoma

提供AR SDK，目前国内最流畅、上手快的AR一站式平台，支持云端建图，网页端摆放资源模型。(已停摆）

这里只列出比较典型的几家公司，当然还有很多公司GPS+ARkit来偷换概念。

(2)国外

国外的公司基本都会公开自己的技术pipeline,不会藏着掖着！

i. MAXST

pipeline 如下：

采集设备：消费级全景
建图算法：sfm + mvs

maxst 3D 空间地图图示如下，除了AR内容还会叠在POI还有路网信息来与现实世界进行绑定。

ii.immersal

同Neogoma 一样，具备完整的AR开发平台，对于AR新用户或AR概念体验者来说操作简单。

采集设备支持：手机、 BLK2GO 、消费级全景

全景设备的处理依靠商业软件photoscan的处理，本质还是sfm去构建定位地图。

iii.Blue Vision

建图算法：分布式sfm ，依托于开源openmvg框架，单次定位返回时间1s内。

iv.multiset

采集设备：手机

建图算法：使用slam方案同3D scanner app一样,依托于ARkit/ARcore(ARKit 和 ARCore 主要用于室内小范围应用)但是在ARKit 的基础上叠加了地图合并功能，使得多个小范围的建图数据可以拼接成更大规模的地图，从而支持更广阔的空间映射。

定位精度：角度误差1度，位置误差10cm

主要商业落地场景：工业AR,将设备上的实时信息和物联网数据叠加到实景中。这种实时可视化功能能够提升故障排查效率，减少停机时间，并通过直观呈现关键信息来确保安全。

这里再提一点是multiset同immersal、Neogoma 一样，都是一站式AR操作平台，非常适合新手体验AR效果。

v. Over the Reality

一家非常有意思的公司，侧重于建图，其采用智能手机利用众包形式构建3D地图。显而易见，VPS依赖于3D地图，那么最大的问题就会出现：如何构建这些地图。因为世界很大，所以就会有两个问题：

如何鼓励人们参与地图绘制
去哪里绘制地图

那么over the reality 为了解决这一问题，采用奖励机制来实现众包，主要分为两个方面：其一，用户下载APP，扫描任何区域进行构图，如果OVER对用户的地图感兴趣，可以购买用户的地图；其二，over实施指定区域建图计划，比如一个历史意义的spot ,如果用户参与计划，那么相比于自己任意地点扫图会获取更多的报酬。

over拥有了地图后，可以做什么？地图作为数字资产，具备真实尺度的3D结构信息存在两方面的价值主张，一方面当摄象头再次对着熟悉的环境时候，就会知道所处的空间位置，即VPS；另一方面可以创建该位置的数字孪生，可以远程的操控，如云景点。

vi.Sturfee

基于高分辨率卫星影像构建mesh,然后基于mesh的VPS。定位效率大约需要3秒钟，无法在室内定位，这里提Sturfee主要是其构建地图的方式与其他同行截然不同。

vii.Lightship(Niantic)

同OVER一样，用户上传自己的采集的地图，打开APP会根据gps位置看到自己周围已有的点位，如果点位被激活就可以测试VPS，但是与OVER不同的是不具备“奖励机制”，要想达到众包还是一件困难的事情。但是Niantic的技术还是非常强的，代表作有pokemon go、ACE和ACE0

五、vps的应用

(1)、low-cost UAV导航

常见的UAV导航会叠加众多传感器，造成成本高，功耗大的情况；那么低成本的UAV导航尤其是GPS-denied的case下，基于相机和低成本的IMU来实现UAV的导航。该方法可以在嵌入式处理器中非常紧密高效的运行，具体的技术手段是VIO+ VPS,其中VPS是利用相机图像与卫星图像来实现，如下图所示：