点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
编辑:计算机视觉工坊
添加小助理
:dddvision,备注:三维点云,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程
(星球成员免费学习)、
最新顶会论文
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
基于LiDAR地图的视觉定位技术具有广阔的应用前景。然而,该技术面临两个主要挑战。首先是LiDAR地图的存储和计算消耗大。由于点云是无序的,通常需要进行大量计算才能从原始LiDAR地图中提取特征。第二个挑战是3D-2D跨模态特征匹配。由于点云地图包含3D坐标信息,而摄像头图像包含2D RGB像素,因此不能直接在摄像头图像和点云地图之间进行特征匹配。
为了解决上述问题,这篇文章提出了一种单目定位管线,称为LHMap-loc。作者将排序和过滤后的LiDAR地图称为LiDAR点云热度图(LHMap)。在此管线中,首先通过离线监督训练在原始LiDAR点云上进行LHMap生成,保留关键特征并压缩点云地图。然后,通过基于光流预测和空间注意力加权的姿态回归网络预测6自由度(DoF)姿态。在这个端到端网络中,实现了实时高精度姿态回归。
下面一起来阅读一下这项工作~
1. 论文信息
标题:LHMap-loc: Cross-Modal Monocular Localization Using LiDAR Point Cloud Heat Map
作者:Xinrui Wu, Jianbo Xu, Puyuan Hu, Guangming Wang, Hesheng Wang
机构:上海交通大学、剑桥大学
原文链接:https://arxiv.org/abs/2403.05002
代码链接:https://github.com/IRMVLab/LHMaploc
2. 摘要
在预先构建的LiDAR点云地图中使用单眼摄像头进行定位引起了自动驾驶和移动机器人领域的越来越多的关注。然而,在准确有效地实现跨模态定位中仍存在许多挑战(例如,地图存储困难,在大场景中定位稳健性差)。为了解决这些问题,提出了一种名为LHMap-loc的新型流水线,该流水线实现了在LiDAR地图中准确高效的单眼定位。首先,通过生成离线热点云对原始LiDAR点云地图进行特征编码,从而压缩原始LiDAR地图的大小。然后,基于光流估计和空间注意力设计了一个端到端的在线姿态回归网络,实现了在预先构建的地图中实时单眼视觉定位。此外,进行了一系列实验来证明所提方法的有效性。
利用LiDAR点云热力图( LHMap )进行单目定位管线。该流水线由一个离线的LHMap生成网络来构建LHMap,以及一个在线的位姿回归网络来实现预先构建的LHMap的实时定位。
LiDAR图像配准在KITTI数据集上的定性结果。
(1)提出了一种名为LHMap-loc的单目视觉定位管线。该管线可以以离线方式压缩和编码点云地图的特征,并在线进行单目定位。整个管线是通过深度学习方法实现的。
(2)设计了一种基于光流预测和空间注意力加权的姿态回归算法。该算法实现了3D和2D特征的跨模态融合,实现端到端姿态估计。
(3)在自动驾驶数据集KITTI和Argoverse数据集上进行了大量实验。此外,在自己的轮式车辆平台上进行了真实世界实验。结果表明,所提出的LHMap-loc在精度和效率方面优于最先进的方法。
提出的LHMap-loc管线旨在将单目图像定位在预先构建的LiDAR点云地图内。在这个管线中,通过两个主要过程实现跨模态单目定位:离线LHMap构建过程和在线姿态回归过程。关于离线LHMap构建过程,将预先构建的密集点云地图和离线相机图像输入网络以构建LHMap。在此过程中,密集点云地图被压缩,同时保留用于定位的关键特征。至于在线姿态回归,将LHMap和在线RGB图像输入端到端网络以回归6-DoF姿态。还基于2D流特征嵌入和空间注意力加权实现了实时跨模态定位。
LHMap-loc的详细管线。
它包括离线LHMap生成网络和在线姿态回归网络。在离线网络的第1阶段,使用Dgt生成热特征Hc,通过Hc计算的热值选择粗糙局部LHMap Mc。使用Dinit和Ioffline生成流嵌入ED。在第2阶段,使用初始粗糙局部LHMap Minitc和Ioffline生成流嵌入EM和热特征HM。通过空间注意力加权对ED和EM进行姿态监督。在在线姿态回归网络中,实时局部LHMap Mr和Ionline用于回归实时6-DoF姿态。
表格I显示了在3次迭代下不同方法的定量单目定位结果。为了公平比较,表格中列出的所有方法都遵循相同的训练集和测试集选择。关于KITTI数据集和Argoverse数据集,与SOTA方法相比,LHMap-loc通过大幅度改善的平移和旋转误差评估获得了更准确的单目定位:CMRNet、HyperMap和PosesAsQueires。LHMap-loc一次迭代的定位精度甚至比CMRNet三次迭代还要高。此外,LHMap-loc在迭代优化过程中实现了更显著的精度提升。将点云地图映射到归一化框架。然后,将归一化坐标映射到图像平面。然后,在KITTI序列03、05、06、07、08、09和Argoverse序列Train1、Train2、Train3上训练管道,并在KITTI序列00和Argoverse序列Train4上进行测试,结果如表II所示。根据CMRNet++,如果平移误差大于4m,则定义情况为失败。结果表明,LHMap-loc在Argoverse上特别实现了竞争性的定位精度。值得注意的是,LHMap-loc在KITTI和Argoverse上的失败率都为零。这证明了LHMap-loc对缺乏结构几何特征的农村道路等具有挑战性的环境更加稳健。
这篇文章使用离线热力图生成网络构建LHMap。进一步地,针对LHMap和实时RGB图像,通过端到端的位姿回归网络实现在线位姿回归。通过大量的实验结果,证明了LHMap在提高定位精度和减小LiDAR地图尺寸方面的有效性。总的来说,LHMap - loc比基于SOTA学习的单目定位具有更高的精度和更强的鲁棒性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。