清华 x 蔚来 | 解耦BEV神经匹配实现高效端到端视觉定位！

新机器视觉 · 公众号 · · 2025-03-11 09:10

正文

作者 | 自动驾驶专栏编辑 | 自动驾驶专栏

本文只做学术分享，如有侵权，联系删文

论文链接： https://arxiv.org/pdf/2503.00862

摘要

本文介绍了自动驾驶中基于解耦的BEV神经匹配实现高效的端到端视觉定位。精确的定位在高级自动驾驶系统中起着重要作用。传统的基于地图匹配的定位方法通过显式地将地图元素与传感器观测进行匹配以求解位姿，这通常对感知噪声较为敏感，因此需要成本高昂的超参数调试。本文提出了一种端到端的定位神经网络，它从环视图像中直接估计车辆位姿，而无需显式地将感知结果与高精地图进行匹配。为了确保效率和可解释性，本文提出了一种基于解耦的BEV神经匹配的位姿求解器，它在基于差分采样的匹配模块中估计位姿。此外，通过解耦受到位姿每个自由度影响的特征表示，使得采样空间大大减小。实验结果表明，所提出的网络能够进行分米级定位，在纵向、横向位置和偏航角方面的平均绝对误差为0.19m、0.13m和0.39°，同时在推理内存使用方面降低了68.8%。

主要贡献

本文的主要贡献总结如下：

1）本文精心设计了一个端到端定位网络，它使用环视相机感知到的语义BEV特征进行完全可微分且可解释的位姿估计，从而通过轻量级高精地图来实现分米级定位；

2）本文提出了一种网络中基于解耦的BEV神经匹配的位姿求解器，用于提取幅频特征和轴特征，以独立求解3自由度位姿。该方法极大地降低了计算成本，同时实现了与传统解决方案相当的定位性能；