专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
相关文章推荐
会计雅苑  ·  预算1.97亿!中国南方电网2025-202 ... ·  2 天前  
玩物志  ·  又一批抄底大理民宿的人,后悔了 ·  4 天前  
51好读  ›  专栏  ›  3D视觉之心

DiFSD:商汤绝影打造的模拟人类驾驶行为的端到端自动驾驶系统

3D视觉之心  · 公众号  ·  · 2024-09-25 07:00

正文

作者 | ADFeed  编辑 | ADFeed

点击下方 卡片 ,关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

>> 点击进入→ 3D视觉之心技术交流群

DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving

论文:
https://arxiv.org/abs/2409.09777

DiFSD 是一种创新的端到端自动驾驶系统,由商汤绝影(SenseAuto)联合上海交大共同打造。它采用了一种以自我为中心的全稀疏范式,通过结合不确定性去噪和迭代细化策略,显著提高了自动驾驶的效率和性能。

该系统主要由稀疏感知、层次化交互和迭代运动规划三个核心模块构成:

  • 在稀疏感知模块中,DiFSD利用从多视角图像中提取的多尺度视觉特征,同时进行目标检测、跟踪和在线映射。

  • 层次化交互模块则通过自我中心和对象中心的双重交互,逐步筛选出与自车意图和轨迹规划最相关的车辆或静止物体。

  • 迭代运动规划器不仅考虑了交互代理的动态,还对自车的多模态轨迹进行了优化,以生成安全、高效的驾驶策略。

DiFSD 的特点在于其对人类驾驶行为的深入模拟和对环境的稀疏表示,这使得系统能够集中处理与当前驾驶意图密切相关的信息,同时忽略无关的冗余数据。此外,DiFSD引入的几何先验和意图引导的注意力机制,进一步提升了交互查询的选择精度和规划的合理性。

技术解读

DiFSD 是一种端到端自动驾驶系统,它采用了一种以自我为中心的全稀疏范式,通过模拟人类驾驶行为,专注于与自车意图和轨迹规划最相关的车辆和静止物体。这种系统通过稀疏感知、层次化交互和迭代运动规划三个核心模块来实现对驾驶场景的理解和决策。

DiFSD 的处理过程和技术特点体现在:

  • 首先,它通过稀疏感知模块,使用多尺度图像特征进行目标检测和跟踪,以及在线映射,从而减少了对计算资源的需求。

  • 其次,层次化交互模块通过自我中心和对象中心的交互,逐步筛选出与自车行驶意图最相关的动态和静态元素,这一过程利用了额外的几何先验知识,提高了选择的准确性。

  • 再次,迭代运动规划器不仅预测了交互代理的轨迹,还对自车的多模态轨迹进行了迭代优化,确保了规划的合理性和安全性。

  • 此外,DiFSD还引入了不确定性去噪技术,通过位置级运动扩散和轨迹级规划去噪,增强了系统对不确定性的建模能力,提高了训练的稳定性和收敛速度。

DiFSD 的价值在于其能够有效提高自动驾驶系统的效率和性能。在nuScenes数据集上的实验结果表明,DiFSD在减少平均L2误差和碰撞率方面取得了显著的成效,同时大幅提升了系统的运行效率,这表明DiFSD在实际自动驾驶应用中具有巨大的潜力。

未来DiFSD的研究方向将集中在如何进一步提升几何分数的生成质量,以及如何整合更多的交通信号和视觉-语言模型,以实现更加智能化和自动化的驾驶决策。随着这些技术的不断发展和完善,DiFSD有望在未来的自动驾驶领域发挥更加重要的作用。

论文解读

本文提出了一种名为DiFSD的端到端自动驾驶方法,它是一种以自我为中心的全稀疏范式,通过不确定性去噪和迭代细化来提高效率。

论文的主要内容概括如下:

摘要

  • 提出了DiFSD,一种新颖的以自我为中心的全稀疏范式,用于端到端自动驾驶。







请到「今天看啥」查看全文