专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
乌鸦预告片  ·  豆瓣2024最佳冷门片!9.1高分《还有明天 ... ·  昨天  
乌鸦预告片  ·  豆瓣2024最佳冷门片!9.1高分《还有明天 ... ·  昨天  
媒哥媒体招聘  ·  揽光传媒招聘! ·  3 天前  
媒哥媒体招聘  ·  事业编|上海戏剧学院招聘! ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

一文详解基于先验地图的视觉定位

新机器视觉  · 公众号  ·  · 2024-11-04 21:07

主要观点总结

文章介绍了在自动驾驶中如何使用高精度地图、相机和其他传感器进行高精度的相机定位(pose estimation)。文章讨论了相关技术的现状,介绍了不同方法的工作原理和流程,包括基于单目、双目或多目相机的定位方法,以及结合地图数据和使用深度学习技术进行定位的方法。同时,也涉及了一些行业内领先的公司的相关技术和研究。这些方法在自动驾驶车辆定位中具有重要的应用价值。

关键观点总结

关键观点1: 高精地图、高精定位和感知的关系

三者相辅相成,高精地图和感知结果可以为定位提供先验信息,定位结果又可以辅助感知,将感知元素与地图已有元素进行比对更新或者构建新的地图。

关键观点2: NVIDIA在行业中的合作现状

NVIDIA在国内与高德、四维、宽凳合作,在国外与tomtom、here、zenrin等合作,推动了自动驾驶技术的发展。

关键观点3: 视觉定位中的两种主要方法

一种是End-to-end方法,如PoseNet,另一种是两步定位法,先通过图像检索找到最接近的关键帧,再与该关键帧匹配局部特征进行定位。

关键观点4: 文章介绍的几种视觉定位方法

包括利用单目相机和地图进行定位的方法、结合双目相机和hdmap进行定位的方法、使用compact map进行语义定位的方法等。这些方法各有特点,适用于不同的场景和需求。

关键观点5: HF-NET网络的特点

HF-NET网络是一种由粗到精的hierarchical定位网络,可以同时估计局部和全局特征,通过多任务蒸馏方式进行网络的训练,提高了对环境变化的鲁棒性。


正文


来源:cc.fy@知乎


问题定义


给定一份高精度地图或环境模型,给定相机(不限于单目,双目,多目,针孔或者鱼眼),输出相对于这份地图的高精度的相机的pose,在这个过程中其他传感器信息是可选的(optional)


https://news.developer.nvidia.com/drive-labs-how-localization-helps-vehicles-find-their-way/


https://github.com/ethz-asl/hfnet


高精地图, 高精定位, 感知的关系


高精地图、高精定位和感知三者相辅相成。假如具备高精地图和感知结果,就可为定位提供先验信息:


artisense_visual_slam


假如具备高精地图和定位结果,就可把地图元素投影到车体坐标系中,为感知提供先验信息:


https://www.atlatec.de/localization.html


假如具备定位和感知结果,就可把感知元素反向投影回地图坐标系,将感知元素与地图已有元素进行比对更新或者构建新的地图:


kitti vector mapping


行业现状


NVIDIA


在国内和高德,四维,宽凳合作,在国外和tomtom, here, zenrin等合作. DRIVE LOCALIZATION(https://www.bilibili.com/video/BV1cp4y1e7NM), localization within the world robustly and accuratly.


Mobileye


Localization in the road book (REM)



上图分别是road book 投影到图像空间上和投影到google earth的结果, 个人觉得mobileye一方面是一家自动驾驶公司,随着rem系统不断发展,可能也是一家全球地理数据资产管理公司


Baidu


DA4AD: End-to-End Deep Attention-based Visual Localization for Autonomous Driving,ECCV 2020


NIO 蔚来


高精地图加持下定位精度20cm:https://www.bilibili.com/video/BV1Bf4y1D7Lx


Momenta


Related Paper


1、Coarse-to-fine Semantic Localization with HD Map for Autonomous Driving in Structural Scenes(https://arxiv.org/abs/2107.02557)




coarse-to-fine semantic localization for autonomous driving,IROS 2021_哔哩哔哩_bilibili(https://www.bilibili.com/video/BV11A411c7Dq?spm_id_from=333.999.0.0)


2、Monocular Vehicle Self-localization method based on Compact Semantic Map


Input: 单目相机 + 地图 Output: 6DOF pose,总体流程图如下:



3、Monocular Localization with Vector HD Map(MLVHM): A Low Cost Method for Commerial IVs (2020)


提出了一种耦合单目相机和轻量级矢量地图的定位方法,建立地图特征和图像检测出的相对稳定的语义特征之间的关联,从而进行相机的位姿估计,同时为了增加约束让轨迹更加鲁棒平滑,引入了两帧之间的视觉里程计的约束,最终达到了约24cm的定位的rmse精度.

众所周知,GNSS-RTK + 高质量的IMU + 多线束激光雷达在室内外都可以交付高精度的定位结果,然后由于成本的原因无法大规模商业化使用。然后作者团队也希望能够只需要一个单目相机 + hdmap来完成这件事情,尽管hdmap本身是需要昂贵的传感器来构建,当然也有公司采用众包技术使用消费级传感器就可以进行地图的构建与更新,但是地图一旦构建起来的边际成本接近于0,通过云端分发,分发的车辆越多,其分摊的构建成本也越低,自动驾驶中使用的地图形式也五花八门,如下图, 有激光定位需要使用的包含环境原始几何信息的激光点云图,也有如特征点法视觉slam中建立的特征点地图,也有对环境进行拓扑表达的类似于右图中的矢量地图,这些地图都可以完成定位任务,考虑到地图大小,简洁的要求,矢量地图可能是一个更合适的选择,并且在这篇文章中被使用,当然同样一份矢量地图,国际上存在大量的格式标准,如opendrive, apollo, nds等. 如下展示了两种不同形式的地图:



由于在室外环境中,光照变化,视角变化,遮挡等会频繁发生,所以选择从环境特征中选择一些相对这些条件更加鲁棒的特征是必要的,借助于CNN对图像极强的表达能力,我们可以获得这些稳定的语义特征所在的像素或者描述,而矢量地图中存储的也是这些不变的相对稳定的东西,所以问题很自然的简化为数据关联问题。文章所提出的方法的整体流程如下:



与前作不同的是,同时解算帧间vo(利用了传统视觉特征orb),并在滑窗中引入帧间的约束来提升鲁棒性。在影像处理模块,通过分割提取关键像素,并将其拟合成point feature(sign)和line feature(lane and pole),同时为了进行帧间vo的计算,会进行orb特征的提取;在基于地图的定位模块会进行初始pose估计,利用初始pose通过随机采样的方式确定最优的匹配,然后根据匹配关系就可以进行pose的优化求解;最后为了确保定位输出的鲁棒,增加了滑窗的位姿优化。


数据关联的过程: 确定地图上的特征和图像上的特征的对应关系


1. 先生成可能的对应关系集合,从集合中随机采样三条同语义的线特征的对应关系来进行相机pose的计算,


2. 根据计算出的相机的pose投影地图元素,如果和图像feature距离低于设定的阈值则认为是inlier,然后会计算估计出的pose和初始pose的距离,如果满足阈值,则对应关系会加入假设集合


3. 最终选择inlier数最多的一组对应关系作为最终的对应关系


实现细节:

1. 图像特征提取层面,用修改版的pspnet来对图像进行分割,然后根据置信度概率选择特定的像素,用区域生长的方法划分为不同的区域,线特征进行最小二乘拟合,从sign区域拟合点特征,从图像域上得到这些特征分别的位置描述


2. compact map的使用,所使用的地图是opendrive格式,sign使用的是质心点,pole使用的是两个端点,lane用0.2m进行采样散点,然后每两个散点构成拟合成一条线来进行使用


3. 优化与初始化, 系统初始化也是使用了低成本的GNSS的测量值作为初值,优化就是标准的LM算法


4、HDMI_LOC: Exploiting High Definition Map Image for Precise Localization vai Bitwise Particle Filter (IROS 2020)


文章提出了一种方法,结合双目相机和hdmap来进行6dof的位姿估计,将地图转换为8bit的影像代表,使得query image可以和地图进行bitwise operation(位运算)来进行匹配,使用粒子滤波框架来进行pose优化估计,11km的测试条件横纵向误差约为0.3m,运行速度为10hz,整个定位过程可以分为4步:







请到「今天看啥」查看全文