来源:智猩猩、知乎
| 首图图源
:网络
|作者
:Thomas Wilson
全文
3500+
字,预计阅
读
20-25
分钟
进群交流:
点此处
理想汽车在2025年NVIDIA GTC大会上正式公布了其下一代全栈自研的智驾方案:MindVLA(视觉-语言-动作端到端大模型)的技术细节,该模型融合了空间智能、语言智能和行为智能。
看完这个技术分享报告,整体感受就是时下最热门的几个关键词该报告全都提及了:
VLM/VLA/LLM/ScalingLaw/E2E/
AIGC
/具身智能/DeepseekR1/Chatgpt-o1/
RLHF
/CoT/涌现能力/后训练/Diffusion/3DGS。
虽然缺少了些技术原创性,但作为国内智驾行业端到端开源最强量产技术方案,还是值得我们好好学习下。理想的新一代技术架构-VLA工作中心更多的放在:利用工程化能力将已有的AI技术完美地结合智驾业务场景并增强产品功能的体验,如:
如何构建自动驾驶图文数据和智驾场景tokenizer,在开源的LLM基座模型上从零开始重新训练3D感知性能优秀的大语言模型?
如何基于现有的3D重建和生成技术,提升生成的效率和效果?
如何利用已有工程优化技术:大模型解码技术(投机推理/并行解码技术)实现LLM在车载ORIN-X和THOR-U实时推理?
如何基于现有的扩散模型技术精细化轨迹的生成,并通过常微分方程的ode采样器技术加速轨迹的生成?
如何基于已有加速技术结合英伟达计算平台提升3D重建和生成训练速度?
如何利用Deepseek工程优化技术经验,提升模型的参数量,同时保证LLM实时推理效果?
报告的一开始,抛出智驾棘手问题,同时提及这些问题FSD也处理不好:
到处乱窜的电瓶车、高强度的人车博弈和复杂多样的公交车道(标识方法和使用规则非常复杂):空中的指示牌、地面的文字标识、不同的文字表达和路边标牌;
中国数字城市的快速发展高速发展导致高精地图和先验规则更新不及,如:施工区域较多、文字标识牌显示不清、车道和区域被赋予动态变化的能力:出现了动态可变的可调通道和
潮汐车道
、大量的待转区域和待行区域、多样化的信号灯和LED文字牌、交通设备长期处在的新增,故障和维护状态中;
需要顺利通过ETC和收费站,支持识别各种ETC标识的支付标识;
紧接着,引出重点,这些问题,理想可以解决呀,那么先介绍下去年理想的工作成果吧。
E2E&VLM+Cloud闭环-World Model
双系统技术方案详细细节见论文:DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Model。(
https://arxiv.org/abs/2402.12289
)
战果1:截止2025/02理想的智驾架构已经实现MPI(每次干预行驶里程数Miles Per Interventions)>100KM 的优秀实车测试结果;
贾鹏表达了理想以前很强,今年更强了,理想这一次升级智架架构了,今年封闭开发年底有望量产,就问牛不牛B?哈哈。
VLA架构:3DGS&MindGP&Diffusion+Cloud闭环:RLHF&Wordmodel
针对新一代的VLA架构,下面我罗列了贾鹏主要提及的关键点,大家抓住主要矛盾哈:
V-视觉空间智能: 3D空间理解能力,基于Gaussian 3D的空间理解中间表征;
L-语言智能: 从零开始重训智驾LLM,利用智驾现成感知网络能力,并添加其他智驾输入,自定义智驾专用的LLM input tokenizer,预训练时利用未来帧的预测生成和稠密深度的预测增加3D空间理解和推理能力并最终生成Action Token;
自动切换快慢思考,使用固定简短的CoT模板;
借鉴DeepSeek工程化经验使用:MoE和Sparse Attention;
A-行为智能: VLM指导下的动作模型,使用diffusion model生成精细化动作,并通过RLHF微调采样过程,对齐行为生成;
工程优化:VLA在车端芯片的实时推理采用Action Token并行解码、CoT采用小词表和投机推理和使用常微分方程Ordinary Differential Equation(ODE)采样器;
3D场景还原能力和生成模型的新视角补全深度结合,互相增益彼此;
引入VLA下一代智驾架构前,先认识下当前E2E + VLM双系统架构的痛点:
通过E2E + VLM的异步联合训练提升双系统的上限难度较大:(两个独立任务的模型且运行频率差别比较大);
使用的是开源的LLM模型基座:该基座是基于海量的互联网2D图文数据训练的,在3D空间理解和驾驶数据上是不足的;
后训练优化LLM模型的上限,优化空间也是有限的;
多模型态场景处理难度大,在相同的场景下,不同人的驾驶选择倾向不同,同一个驾驶员不同心情下的驾驶行为也是不同的,最终还得对齐人类的价值观念;
理想VLA模型架构集成了空间智能、语言智能和行为智能,并统一到一个模型内,可微可导。
V(Spatial-Intelligence):自监督
3D编码器
预训练
传感器输入->感知模型输出动静态检测结果
(监督学习)
->预测模块输出预测轨迹->规划模块输出决策规划;
理想的定义的基于3D高斯表征的端到端自动驾驶Pipeline:
3D高斯均匀初始化+传感器输入-> 3D高斯环境建模与场景重建(
自监督
)->预测模块输出未来帧高斯建模场景->规划模块输出决策规划轨迹;
其中,3D高斯环境建模与场景重建可以理解为:BEV->Occ->3D Gaussian这么一个升级路线,3D特征中间表征越来越精细。并且,Occ真值一般是依赖激光雷达生成的,Guassian 3D纯依赖图像。重建场景的目标包含:静态道路结构(车道线和交通标志),动态物体(如车辆和行人)则使用时序高斯分布建模,以支持3D目标检测以及运动预测。
3D高斯场景重建的优势:多粒度、多尺度、丰富的3D几何尺度表达能力、丰富的语义,并且可通过2D-RGB图像做自监督训练,具体细节参考论文:
GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
(
https://arxiv.org/pdf/2412.10371
)
L(Lingustic Intelligence):重新设计LLM基座模型(MindGPT)并重新训练该基座模型
重新设计智驾专用的LLM input tokenizer ;
模型架构稀疏化:采用MOE架构+SparseAttention(实现模型容量扩容的同时不会大幅度增加推理负担);
重构自动驾驶训练数据集:最佳的配比(3D属性真值标注数据 + 减少文史类数据的比例并增加自动驾驶图文数据);
加入未来帧的预测生成 + 稠密深度的预测;
人类思维模式 + 自主切换快思考慢思考:
慢思考输出精简的CoT(采用的固定简短的CoT模板) + 输出action token;
快思考直接输出action token;
CoT生成加速:小词表 + 投机推理(推理模式1: 因果注意力机制token by token的输出);
action token生成加速:并行解码的方式(推理模式2: 双向注意力机制并行输出);
利用扩散模型Diffusion Model,生成精细化的动作:接入上游输出的action token,生成包括自车轨迹、他车和行人的轨迹,提升VLA模型在复杂交通场景下的博弈能力。另外,该模型可以根据外部的实时交通环境改变生成结果(图像生成领域称其为多风格生成)。
World Model + 强化学习打通自动驾驶闭环仿真链路:
当前的端到端VLA架构解决了痛点1;
通过真实、良好的3D交互环境数据做3D重建和生成,优化训练过程可以解决痛点2。目前,纯生成模型的优势劣势都很明显。优势:模型具备良好的泛化能力能够生成多变的场景;劣势:出现不符合物理世界规律的幻觉。且在大视角变幻下可能出现空洞和变形,无法在多视角下高质量生成。理想的解决方案是:在不同的视角下添加噪音训练模型的生成能力;
通过3D重建和生成模型的联合优化,以及英伟达计算平台的计算训练技巧解决了痛点3,生成高质量多视角的3D场景;
至于如何有效的结合自动驾驶场景重建和生成:技术细节可参见理想团队今年CVPR2025中的四篇论文:
StreetCrafter、DrivingSphere、DriveDreamer4D与ReconDreamer(备注中贴了链接)。
理想的的智驾方案确实很优秀。但是,实车体验下来,目前距离FSD还有一定差距。我认为,工程能力是一家智驾公司的下限;而AI能力,则是整个智驾产业的最上限。相信,通过不断努力,国内智驾也将在不断升级迭代过程中逐渐看见光明的未来。
公号👇发消息“
我来了
”,可直接领取
“10G+自动驾驶相关资料”
声明:除文内特殊声明外,本公众号内所有文章编写或转载的目的仅用于学习和交流,不予以商用,不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有,凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳( 微信号:adas_miao ),本号将及时处理。