专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
幸福东台  ·  查!分!啦! ·  昨天  
幸福东台  ·  查!分!啦! ·  昨天  
掌上南通  ·  明起,出分! ·  昨天  
掌上南通  ·  明起,出分! ·  昨天  
吉安发布  ·  明天出分!复试攻略都在这儿了→ ·  昨天  
吉安发布  ·  明天出分!复试攻略都在这儿了→ ·  昨天  
MBAEMBA  ·  饿了么“老二”难当 ·  2 天前  
MBAEMBA  ·  饿了么“老二”难当 ·  2 天前  
现代快报  ·  黄仁勋首度回应DeepSeek冲击 ·  2 天前  
现代快报  ·  黄仁勋首度回应DeepSeek冲击 ·  2 天前  
51好读  ›  专栏  ›  3DCV

感知、建图、预测、规划!一文总结顶会最新开源的自动驾驶端到端算法!(上)

3DCV  · 公众号  ·  · 2024-10-01 00:06

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉工坊为您网罗最新的行业动态、学术论文、科研成果、产品发布、新闻政策!

1. 面向规划的自动驾驶(UniAD)

标题:Planning-oriented Autonomous Driving

作者:Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li

机构:OpenDriveLab and OpenGVLab, Shanghai AI Laboratory、Wuhan University、SenseTime Research

来源:CVPR 2023 Best Paper

原文链接:https://arxiv.org/abs/2212.10156

代码链接:https://github.com/OpenDriveLab/UniAD

摘要:现代自动驾驶系统的特征是按顺序的模块化任务,即感知、预测和规划。为了执行多种多样的任务并实现高级智能,当代方法要么为单个任务部署独立的模型,要么设计具有独立头部的多任务范例。然而,他们可能会遭受累积误差或缺乏任务协调。相反,我们认为应该设计一个有利的框架并进行优化,以追求最终目标,即自动驾驶汽车的规划。以此为导向,我们重新审视感知和预测中的关键组成部分,并对任务进行优先排序,以便所有这些任务都有助于规划。我们引入了统一自动驾驶(UniAD),这是一个最新的综合框架,在一个网络中集成了全栈驾驶任务。它被精心设计来利用每个模块的优势,并从全局的角度为代理交互提供补充的特征抽象。任务通过统一的查询界面进行交流,以便于彼此进行规划。我们在具有挑战性的nuScenes基准上实例化了UniAD。通过广泛的消融,使用这种原理的有效性通过在所有方面显著优于现有技术水平而得到证明。代码和模型是公开的。

2. DriveAdapter:打破端到端自动驾驶中感知和规划的耦合障碍

标题:DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving

作者:Xiaosong Jia, Yulu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, Hongyang Li

机构:Shanghai Jiao Tong University、OpenDriveLab, Shanghai AI Lab、Beihang University 、Anker Innovations

来源:ICCV 2023

原文链接:https://arxiv.org/abs/2308.00398

代码链接:https://github.com/OpenDriveLab/DriveAdapter

摘要:端到端自动驾驶旨在建立一个完全可微分的系统,该系统将原始传感器数据作为输入,并直接输出自我车辆的规划轨迹或控制信号。最先进的方法通常遵循“教师-学生”模式。教师模型使用特权信息(周围代理和地图元素的真实状态)来学习驾驶策略。学生模型只能访问原始传感器数据,并对教师模型收集的数据进行行为克隆。通过在规划学习过程中消除感知部分的噪声,与那些耦合的作品相比,最先进的作品可以用明显更少的数据获得更好的性能。

然而,在当前的师生范式下,学生模型仍然需要从头学习规划头,由于原始传感器输入的冗余和噪声性质以及行为克隆的偶然混淆问题,这可能是具有挑战性的。在这项工作中,我们旨在探索直接采用强教师模型进行规划的可能性,同时让学生模型更多地关注感知部分。我们发现,即使配备了SOTA感知模型,直接让学生模型学习教师模型所需的输入也会导致较差的驾驶性能,这来自于预测的特权输入和地面事实之间的较大分布差距。 推荐课程: Transformer如何在自动驾驶领域一统江湖!

为此,我们提出了DriveAdapter,它在学生(感知)和教师(规划)模块之间使用具有特征对齐目标函数的适配器。此外,由于纯粹的基于学习的教师模型本身是不完善的,偶尔会违反安全规则,我们提出了一种行动导向的特征学习方法,该方法对那些不完善的教师特征进行屏蔽,以进一步将手工制作的规则的先验注入到学习过程中。

3. LMDrive:使用大型语言模型的闭环端到端驱动

标题:LMDrive: Closed-Loop End-to-End Driving with Large Language Models

作者:Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu, Hongsheng Li

机构:CUHK MMLab、SenseTime Research、CPII under InnoHK、University of Toronto、Shanghai Artificial Intelligence Laboratory

来源:CVPR 2024

原文链接:https://arxiv.org/abs/2312.07488

代码链接:https://github.com/opendilab/LMDrive

摘要:尽管自动驾驶领域最近取得了重大进展,但当遇到长尾不可预见的事件和具有挑战性的城市场景时,现代方法仍然很难,并可能引发严重事故。一方面,大型语言模型(LLM)已经表现出令人印象深刻的推理能力,接近“人工一般智能”。另一方面,以前的自动驾驶方法往往依赖于有限格式的输入(例如,传感器数据和导航路点),限制了车辆理解语言信息和与人类交互的能力。为此,本文介绍了一种新颖的语言引导、端到端、闭环自动驾驶框架LMDrive。LMDrive以独特的方式处理多模态传感器数据并将其与自然语言指令相集成,从而在现实的教学环境中实现与人类和导航软件的交互。为了促进基于语言的闭环自动驾驶的进一步研究,我们还公开发布了相应的数据集,其中包括大约64K指令跟踪数据片段,以及测试系统处理复杂指令和挑战性驾驶场景能力的LangAuto基准测试。进行了大量的闭环实验来验证LMDrive的有效性。据我们所知,我们是第一个将LLM用于闭环端到端自动驾驶的工作。

4. Hydra-MDP:多目标Hydra蒸馏的端到端多模态规划

标题:Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

作者:Zhenxin Li, Kailin Li, Shihao Wang, Shiyi Lan, Zhiding Yu, Yishen Ji, Zhiqi Li, Ziyue Zhu, Jan Kautz, Zuxuan Wu, Yu-Gang Jiang, Jose M. Alvarez

机构:NVIDIA、Fudan University、East China Normal University、Beijing Institute of Technology、Nanjing University、Nankai University

原文链接:https://arxiv.org/abs/2406.06978

代码链接:https://github.com/NVlabs/Hydra-MDP

摘要:我们提出Hydra-MDP,一种在师生模型中使用多名教师的新范式。这种方法使用来自人类和基于规则的教师的知识精华来训练学生模型,该模型具有多头解码器,以学习针对各种评估指标定制的不同轨迹候选。凭借基于规则的教师的知识,海德拉-MDP学会了环境如何以端到端的方式影响规划,而不是诉诸不可微的后处理。此方法实现了1st参加Navsim挑战赛,证明在不同驾驶环境和条件下的概括能力有显著提高。

5. GenAD:生成式端到端自动驾驶

标题:GenAD: Generative End-to-End Autonomous Driving

作者:Wenzhao Zheng, Ruiqi Song, Xianda Guo, Chenming Zhang, Long Chen

机构:University of California, Berkeley、Waytous、Institute of Automation, Chinese Academy of Sciences

原文链接:https://arxiv.org/abs/2402.11502

代码链接:https://github.com/wzzheng/GenAD

摘要:从原始传感器直接产生规划结果是自动驾驶长期以来期望的解决方案,最近引起了越来越多的关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而,我们认为,传统的渐进式管道仍然不能全面地模拟整个交通演变过程,例如,自我汽车和其他交通参与者之间的未来交互以及结构轨迹先验。在本文中,我们探索了一种端到端自动驾驶的新范式,其中的关键是预测自我汽车和周围环境在给定过去场景的情况下如何演变。我们提出了GenAD,一个将自动驾驶转换为生成建模问题的生成框架。我们提出了一个以实例为中心的场景标记器,它首先将周围的场景转换成地图感知的实例标记。然后,我们使用一个变分自动编码器来学习结构潜在空间中的未来轨迹分布,用于轨迹先验建模。我们进一步采用时间模型来捕捉潜在空间中的主体和自我运动,以生成更有效的未来轨迹。GenAD最后通过在以实例记号为条件的已学习的结构潜在空间中采样分布并使用已学习的时间模型来生成未来,同时执行运动预测和规划。在广泛使用的nuScenes基准测试上的大量实验表明,所提出的GenAD在以视觉为中心的端到端自动驾驶上实现了高效的最先进性能。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文


推荐文章
幸福东台  ·  查!分!啦!
昨天
幸福东台  ·  查!分!啦!
昨天
掌上南通  ·  明起,出分!
昨天
掌上南通  ·  明起,出分!
昨天
MBAEMBA  ·  饿了么“老二”难当
2 天前
MBAEMBA  ·  饿了么“老二”难当
2 天前
现代快报  ·  黄仁勋首度回应DeepSeek冲击
2 天前
现代快报  ·  黄仁勋首度回应DeepSeek冲击
2 天前
育娃儿成长记  ·  【小组课】101分班备考
7 年前