专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
鲁中晨报  ·  省里已批复!事关淄博 ·  3 天前  
山东大众读者之家  ·  山东双预警齐发!下午开始大风降温,最低-14 ... ·  3 天前  
德州晚报  ·  最新消息传来:今晚不调了! ·  3 天前  
德州晚报  ·  鲍峰履新,德州人! ·  3 天前  
鲁中晨报  ·  刚刚,新疆地震! ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

感知、建图、预测、规划!一文总结顶会最新开源的自动驾驶端到端算法!(下)

3D视觉工坊  · 公众号  ·  · 2024-10-02 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉工坊为您网罗最新的行业动态、学术论文、科研成果、产品发布、新闻政策!

1. OmniDrive:具有3D感知、推理和规划的自动驾驶整体LLM-Agent框架

标题:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

作者:Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez

机构:Beijing Inst of Tech、NVIDIA、Huazhong Univ of Sci and Tech

原文链接:https://arxiv.org/abs/2405.01533

代码链接:https://github.com/NVlabs/OmniDrive

摘要:多模态大型语言模型(MLLMs)的进步导致了对基于LLM的自动驾驶智能体的兴趣不断增长,以利用它们强大的推理能力。然而,利用MLLMs强大的推理能力来改善规划行为是具有挑战性的,因为规划需要超越2D推理的完整3D情境意识。为了应对这一挑战,我们的工作提出了一个整体框架,用于代理模型和3D驾驶任务之间的强对齐。我们的框架从一个新颖的3D MLLM架构开始,该架构使用稀疏查询来提升和压缩视觉表示为3D,然后将它们馈送到LLM。这种基于查询的表示允许我们对动态对象和静态地图元素(例如,车道)进行联合编码,从而为3D中的感知-动作对齐提供了一个精简的世界模型。我们还提出了OmniDrive-nuScenes,这是一个新的视觉问答数据集,挑战了具有综合视觉问答(VQA)任务的模型的真实3D情境意识,包括场景描述、交通规则、3D基础、反事实推理、决策和规划。广泛的研究表明了所提出的架构的有效性以及VQA任务对于复杂3D场景中的推理和规划的重要性。

2. SparseAD:高效端到端自动驾驶的稀疏查询中心范式

标题:SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving

作者:Diankun Zhang, Guoan Wang, Runwen Zhu, Jianbo Zhao, Xiwu Chen, Siyu Zhang, Jiahao Gong, Qibin Zhou, Wenyuan Zhang, Ningzi Wang, Feiyang Tan, Hangning Zhou, Ziyao Xu, Haotian Yao, Chi Zhang, Xiaojun Liu, Xiaoguang Di, Bin Li

机构:Mach Drive、University of Chinese Academy of Sciences、Harbin Institute of Technology、University of Science and Technology of China

原文链接:https://arxiv.org/abs/2404.06892

代码链接:Coming soon

摘要:端到端范例使用统一的框架来实现自动驾驶系统中的多任务。尽管简单明了,但端到端自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。与此同时,在以前的端到端方法中广泛使用的密集BEV功能使得扩展到更多模态或任务的成本很高。在本文中,我们提出了一种以稀疏查询为中心的端到端自动驾驶范式(SparseAD),其中稀疏查询完全表示跨空间、时间和任务的整个驾驶场景,而没有任何密集的BEV表示。具体来说,我们为感知任务设计了一个统一的稀疏结构,包括检测、跟踪和在线映射。此外,我们重温运动预测和规划,并设计一个更合理的运动规划框架。在具有挑战性的nuScenes数据集上,SparseAD实现了端到端方法中的SOTA全任务性能,并显著缩小了端到端范式与单任务方法之间的性能差距。代码将很快发布。

3. SparseDrive:通过稀疏场景表示的端到端自动驾驶

标题:SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

作者:Wenchao Sun, Xuewu Lin, Yining Shi, Chuang Zhang, Haoran Wu, Sifa Zheng

机构:Tsinghua University、Horizon

原文链接:https://arxiv.org/abs/2405.19620

代码链接:https://github.com/swc-17/SparseDrive

摘要:成熟的模块化自动驾驶系统被解耦为不同的独立任务,例如感知、预测和规划,遭受跨模块的信息丢失和误差累积。相比之下,端到端范例将多任务统一到一个完全可区分的框架中,允许以面向规划的精神进行优化。尽管端到端范例具有巨大的潜力,但是现有方法的性能和效率都不令人满意,特别是在规划安全性方面。我们将此归因于计算成本高昂的BEV(鸟瞰图)功能以及预测和规划的简单设计。为此,我们探索了稀疏表示,并回顾了端到端自动驾驶的任务设计,提出了一个名为SparseDrive的新范式。具体来说,稀疏驱动由对称稀疏感知模块和并行运动规划器组成。稀疏感知模块通过对称模型架构将检测、跟踪和在线映射统一起来,学习驾驶场景的完全稀疏表示。对于运动预测和规划,我们回顾了这两个任务之间的巨大相似性,导致了运动规划器的并行设计。基于这种将规划建模为多模态问题的并行设计,我们提出了一种分层规划选择策略,该策略结合了碰撞感知rescore模块,以选择合理安全的轨迹作为最终的规划输出。有了这样有效的设计,SparseDrive在所有任务的性能上都大大超过了以前的技术水平,同时实现了更高的训练和推理效率。

4. 端到端自动驾驶,无需昂贵的模块化和3D手动注释







请到「今天看啥」查看全文


推荐文章
鲁中晨报  ·  省里已批复!事关淄博
3 天前
德州晚报  ·  最新消息传来:今晚不调了!
3 天前
德州晚报  ·  鲍峰履新,德州人!
3 天前
鲁中晨报  ·  刚刚,新疆地震!
3 天前
考研研学姐  ·  研究生就业率最高的十大高校!
7 年前
上下五千年故事  ·  人生四苦,凡人六悟,道尽人性!
7 年前
视觉志  ·  有一样东西,比脸更贵
7 年前