专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
高分子科技  ·  长春应化所简忠保研究员团队 Nat. ... ·  昨天  
高分子科技  ·  北大朱戎/郑雨晴合作 Nat. ... ·  2 天前  
高分子科学前沿  ·  华南理工大学石鹏课题组Science ... ·  昨天  
高分子科学前沿  ·  中国科学院动物研究所HOPE装置面向全球招聘 ... ·  2 天前  
高分子科学前沿  ·  南通大学杨宇民、赵亚红教授团队《AFM》:“ ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

视觉定位VPS的现状与未来

3D视觉工坊  · 公众号  ·  · 2025-02-15 00:00

正文

作者:李城 | 来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

一、前言

VPS全称为Visual Positioning Service/System,即视觉定位服务/系统。手机端(移动时代)的VPS首次出现时间节点为2019年,这一年Google 发布了其产品“Google Maps AR(测试版)”,该产品使用 VPS技术通过相机图像在户外可以实现任意视角的定位与定向。

同样是作为6dof解算的方案,那么VPS、SfM、SLAM还有VO的关系如下图所示:

之前在《 VPS和GPS、SLAM的爱恨情仇 》这篇文章中我已经对三者的区别与联系做了阐述,这里再强调一点其是VPS作为全局定位手段,相对于其他三个不会产生误差累积。

二、空间计算的核心

提到VPS自然要说到之前的热词“空间计算”,这个时候很多人可能存在疑问:为什么使用 VPS 而不是 GPS、信标或 QR 码等其他系统?有以下主要原则指导我们做出这样的选择:
(1)室内定位精度
(2)低成本
(3)多种设备可用性

GPS:是一种低精度空间定位解决方案,是以米为单位的误差;同时在城市区域由于高楼的出现容易出现多路径效应,在室内是不可用状态,VPS相比于GPS的定性表现如下:

磁场:是一种以中等精度进行空间定位的解决方案,因为它利用目标位置的磁场(类似于 VPS 对视野的作用)。它利用边缘计算,但要求设备配备磁罗盘(并非所有设备都配备)。它需要情境化/校准。对于所有空间计算用例来说,它不够精确。

Wifi:是一种中等精度的空间定位解决方案,与 GPS 相反,Wifi 不是全球分布的,因此系统只有在存在现有 Wifi 热点的情况下才能工作,需要校准。它对于所有空间计算用例来说都不够精确,并且对 WiFi 网络基础设施的更新非常敏感。

信标:是一种中等精度的空间定位解决方案,利用设备的蓝牙/Wifi 硬件。缺点是,与 GPS 和 VPS 相比,它成本高昂(设备成本 + 安装成本),并且需要维护(电源)和情境化/校准。对于所有空间计算用例来说,它不够精确。

QR码/视觉标记:这是 AR 中最古老的技术之一,是高精度空间定位的解决方案。但是marker 的张贴场景容易受限,且不具备沉浸感。

三、VPS现有方法论

视觉定位技术可以分为基于地图的和基于非地图的方法,大致可以分为以下几种方案:
(1)基于场景结构(Structure-based)
(2)基于场景结构和图像检索(Structure-based with image retrieval)
(3)场景点回归(Scene point regression)
(4)绝对位姿回归(Absolute pose regression)
(5)位姿内插(Pose interpolation)
(6)相对位姿估计(Relative pose estimation)

(1)(2)(3)属于基于地图的重定位技术,(4)(5)(6)属于基于非地图的;而基于非地图的重定位方法,虽快速轻量但是精度难以满足需求,只能提供粗略的定位。方法(3)采用DNN网络可以直接建立2D像素点和3D点的关联,从而计算查询图像的位姿,该方法类似于基于场景结构的方法,但是该方法在小场景可以具备较高的精度,对于大场景地图的构建,鲁棒性和精度有待提高。

四、国内外持有VPS技术的公司

(1)国内

i.视辰

目前国内创业公司里面算是做的比较好的

采集设备:gopro max 终端设备:支持手机和眼镜

ii.华为

华为VPS SOP如下图所示:

注:来源华为云地图服务产品介绍

iii.商汤

OpenXRLab pipeline如下:

openxrlab 2022年开源最齐全XR平台,给高校和从业人员奠定了基石。

iv.易现

设备:支持手机和全景设备构建地图

v.悉见

已亡

vi.wayz

采集设备:自研设备激光+5个fisheye 、手机、全景相机

终端设备:支持手机和眼镜

并发:qps 单机可达到20

vii. Neogoma

提供AR SDK,目前国内最流畅、上手快的AR一站式平台,支持云端建图,网页端摆放资源模型。(已停摆)

这里只列出比较典型的几家公司,当然还有很多公司GPS+ARkit来偷换概念。

(2)国外

国外的公司基本都会公开自己的技术pipeline,不会藏着掖着!

i. MAXST

pipeline 如下:

采集设备:消费级全景
建图算法:sfm + mvs

maxst 3D 空间地图图示如下,除了AR内容还会叠在POI还有路网信息来与现实世界进行绑定。

ii.immersal

同Neogoma 一样,具备完整的AR开发平台,对于AR新用户或AR概念体验者来说操作简单。

采集设备支持:手机 、 BLK2GO 、消费级全景

全景设备的处理依靠商业软件photoscan的处理,本质还是sfm去构建定位地图。

iii.Blue Vision

建图算法:分布式sfm ,依托于开源openmvg框架,单次定位返回时间1s内。

iv.multiset

采集设备:手机

建图算法:使用slam方案 同3D scanner app一样,依托于ARkit/ARcore(ARKit 和 ARCore 主要用于室内小范围应用)但是 在ARKit 的基础上叠加了地图合并功能,使得多个小范围的建图数据可以拼接成更大规模的地图,从而支持更广阔的空间映射。

定位精度:角度误差1度,位置误差10cm

主要商业落地场景:工业AR,将设备上的实时信息和物联网数据叠加到实景中。这种实时可视化功能能够提升故障排查效率,减少停机时间,并通过直观呈现关键信息来确保安全。

这里再提一点是multiset同immersal、Neogoma 一样,都是一站式AR操作平台,非常适合新手体验AR效果。

v. Over the Reality

一家非常有意思的公司,侧重于建图,其采用智能手机利用众包形式构建3D地图。显而易见,VPS依赖于3D地图,那么最大的问题就会出现:如何构建这些地图。因为世界很大,所以就会有两个问题:

  • 如何鼓励人们参与地图绘制
  • 去哪里绘制地图

那么over the reality 为了解决这一问题,采用奖励机制来实现众包,主要分为两个方面:其一,用户下载APP,扫描任何区域进行构图,如果OVER对用户的地图感兴趣,可以购买用户的地图;其二,over实施指定区域建图计划,比如一个历史意义的spot ,如果用户参与计划,那么相比于自己任意地点扫图会获取更多的报酬。

over拥有了地图后,可以做什么?地图作为数字资产,具备真实尺度的3D结构信息存在两方面的价值主张,一方面当摄象头再次对着熟悉的环境时候,就会知道所处的空间位置,即VPS;另一方面可以创建该位置的数字孪生,可以远程的操控,如云景点。

vi.Sturfee

基于高分辨率卫星影像构建mesh,然后基于mesh的VPS。定位效率大约需要3秒钟,无法在室内定位,这里提Sturfee主要是其构建地图的方式与其他同行截然不同。

vii.Lightship(Niantic)

同OVER一样,用户上传自己的采集的地图,打开APP会根据gps位置看到自己周围已有的点位,如果点位被激活就可以测试VPS,但是与OVER不同的是不具备“奖励机制”,要想达到众包还是一件困难的事情。但是Niantic的技术还是非常强的,代表作有pokemon go、ACE和ACE0

五、vps的应用

(1)、low-cost UAV导航

常见的UAV导航会叠加众多传感器,造成成本高,功耗大的情况;那么低成本的UAV导航尤其是GPS-denied的case下,基于相机和低成本的IMU来实现UAV的导航。该方法可以在嵌入式处理器中非常紧密高效的运行,具体的技术手段是VIO+ VPS,其中VPS是利用相机图像与卫星图像来实现,如下图所示:







请到「今天看啥」查看全文