0. 论文信息
标题:SSF-PAN: Semantic Scene Flow-Based Perception for Autonomous Navigation in Traffic Scenarios
作者:Yinqi Chen, Meiying Zhang, Qi Hao, Guang Zhou
机构:Southern University of Science and Technology
原文链接:https://arxiv.org/abs/2501.16754
1. 导读
由于运动物体的干扰,复杂交通场景中的车辆检测和定位面临着巨大的挑战。传统方法通常依赖于离群点排除或语义分割,计算效率和准确性较低。提出的SSF-PAN可以实现基于激光雷达点云的目标检测/定位和SLAM(同步定位和地图绘制)的功能,具有高计算效率和精度,实现无地图导航框架。这项工作的新颖性有三个方面:1)开发了一个神经网络,它可以在具有不同运动特征的场景流中的静态和动态对象之间实现分割,即语义场景流(SSF);2)开发能够进一步优化输入场景流和输出分割结果的质量的迭代框架;3)开发基于场景流的导航平台,在仿真环境中测试SSF感知系统的性能。使用SUScape-CARLA和KITTI数据集以及在CARLA模拟器上验证了所提出的SSF-潘方法。实验结果表明,该方法在场景流计算精度、运动目标检测精度、计算效率和自主导航效果方面均优于传统方法。
问题定义:
如何设计有效的约束和表示方法,以利用场景流增强运动分割,从而将点云准确分割为静态对象和动态对象?
如何迭代精细化场景流和分割输出,以相互提升其准确性,从而增强整体场景流估计和运动分割性能?
如何将语义场景流(SSF)集成到导航模块中,以改进位姿估计和避障能力,从而在交通场景中提升自主导航性能?
2. 效果展示
具有动态和静态对象分类以及运动对象实例分割的自主导航SSF估计示例。
CARLA复杂交通场景中基于SSF的自主导航示意图。
3. 主要贡献
高级场景流点云分割:我们开发了一种新颖的神经网络,利用场景流信息有效地分割点云区分静态环境和具有各种运动特征的动态物体。这增强了在复杂交通场景中理解并区分物体类型及其运动的能力。
我们开发了一个迭代框精炼的迭代优化框架:架,可以不断改进输入场景流数据和分割输出这个迭代过程提高了系统的准确性和鲁棒性并在整个感知管道中生成更高质量的数据。
稳健的无地图导航平台:我们开发了一个基于场景流数据的全面导航测试平台,能够评估SSF感知系统在各种模拟环境中的性能。该平台支持稳健的自主导航,无需预先构建的高分辨率地图,并能很好地适应多种交通条件。
4. 方法
该系统主要包含两大组件:一个用于语义场景流估计的神经网络,以及一个基于此场景流的导航平台,如图2所示。
系统输入为两个连续的点云帧Pt和Pt+1,其中Pt结合了初步语义掩码,通过主动场景流(ASF)网络预测场景流。随后,将预测的场景流与Pt拼接,并通过分割网络处理,以生成语义场景流。这一过程在互促网络内迭代重复,利用更新后的掩码对输入进行精细化处理,直至场景流预测和分割结果均收敛。通过迭代精细化处理,网络能够准确区分静态环境与动态对象。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
在场景流估计和运动分割稳定后,可将动态对象视为导航规划中的障碍物。通过将导航路径融入综合地图,场景流数据有助于估算每个障碍物的速度。规划算法(例如RDA规划器)则利用这些信息有效执行避障规划。静态环境的点云和场景流可用于计算里程计或SLAM的变换矩阵。
5. 实验结果
6. 总结 & 未来工作
本文提出了一种面向复杂交通场景的基于语义场景流的自主导航感知系统(SSF-PAN),该系统包括SSF模块、迭代优化框架和测试平台。所提出的基于OGC的SSF神经网络结合改进的损失函数,能够提升动态对象和静态环境的分割准确性。所提出的迭代优化框架能够改善场景流估计和分割性能。所开发的基于SSF的导航平台可通过在模拟环境中持续评估SSF感知系统的性能,确保稳健的自主导航,从而在复杂交通场景中实现无地图导航。实验结果表明,与不同导航任务中的现有技术相比,本文的SSF方法在处理复杂交通条件时表现出优越性能,成功率提高约1%~81%,导航时间减少2%~8%,平均移动速度提高10%~17%。未来研究将开发无需迭代处理的高精度多任务模型,用于场景流估计和点云分割。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门