专栏名称: ADS智库

致力于建立自动驾驶及关联“学科”知识库

理想全新一代智驾 VLA 技术方案解读

ADS智库 · 公众号 · · 2025-04-03 14:01

正文

请到「今天看啥」查看全文

2025智能化竞赛启幕：理想、元戎启行领跑VLA模型新赛道-智能汽车-ITBear科技资讯

来源:智猩猩、知乎 | 首图图源 :网络 |作者 :Thomas Wilson

全文 3500+ 字，预计阅 读 20-25 分钟

进群交流： 点此处

理想汽车在2025年NVIDIA GTC大会上正式公布了其下一代全栈自研的智驾方案：MindVLA（视觉-语言-动作端到端大模型）的技术细节，该模型融合了空间智能、语言智能和行为智能。

看完这个技术分享报告，整体感受就是时下最热门的几个关键词该报告全都提及了：

VLM/VLA/LLM/ScalingLaw/E2E/ AIGC /具身智能/DeepseekR1/Chatgpt-o1/ RLHF /CoT/涌现能力/后训练/Diffusion/3DGS。

虽然缺少了些技术原创性，但作为国内智驾行业端到端开源最强量产技术方案，还是值得我们好好学习下。理想的新一代技术架构-VLA工作中心更多的放在：利用工程化能力将已有的AI技术完美地结合智驾业务场景并增强产品功能的体验，如：

如何构建自动驾驶图文数据和智驾场景tokenizer，在开源的LLM基座模型上从零开始重新训练3D感知性能优秀的大语言模型？
如何基于现有的3D重建和生成技术，提升生成的效率和效果？
如何利用已有工程优化技术：大模型解码技术（投机推理/并行解码技术）实现LLM在车载ORIN-X和THOR-U实时推理？
如何基于现有的扩散模型技术精细化轨迹的生成，并通过常微分方程的ode采样器技术加速轨迹的生成？
如何基于已有加速技术结合英伟达计算平台提升3D重建和生成训练速度？
如何利用Deepseek工程优化技术经验，提升模型的参数量，同时保证LLM实时推理效果？

报告的一开始，抛出智驾棘手问题，同时提及这些问题FSD也处理不好：

到处乱窜的电瓶车、高强度的人车博弈和复杂多样的公交车道（标识方法和使用规则非常复杂）：空中的指示牌、地面的文字标识、不同的文字表达和路边标牌；
中国数字城市的快速发展高速发展导致高精地图和先验规则更新不及，如：施工区域较多、文字标识牌显示不清、车道和区域被赋予动态变化的能力：出现了动态可变的可调通道和潮汐车道、大量的待转区域和待行区域、多样化的信号灯和LED文字牌、交通设备长期处在的新增，故障和维护状态中；
需要顺利通过ETC和收费站，支持识别各种ETC标识的支付标识；

紧接着，引出重点，这些问题，理想可以解决呀，那么先介绍下去年理想的工作成果吧。

PART. 0 1

双系统端到端智驾方案

E2E&VLM+Cloud闭环-World Model

双系统技术方案详细细节见论文：DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Model。( https://arxiv.org/abs/2402.12289 )

战果1：截止2025/02理想的智驾架构已经实现MPI（每次干预行驶里程数Miles Per Interventions）>100KM 的优秀实车测试结果；

战果2：多个行业首创的智驾功能：

parking2parking（车位到车位已经OTA推送给40万左右的理想车主）；
全国首创：不依赖高精地图和先验知识的全国ETC自由通行；
全国潮汐车道和可变车道的自由通行；
在待转区和待行区的自主进出；
在坑洼路面、积水路面和积雪路面的自动减速；
全国公交车道的自由通行；
AI推理可视化交互功能：HMI显示AI模型关注的场景点、下一步的动作和整体的思考过程；

贾鹏表达了理想以前很强，今年更强了，理想这一次升级智架架构了，今年封闭开发年底有望量产，就问牛不牛B？哈哈。

PART. 0 2

VLA架构：3DGS&MindGP&Diffusion+Cloud闭环：RLHF&Wordmodel

针对新一代的VLA架构，下面我罗列了贾鹏主要提及的关键点，大家抓住主要矛盾哈：

V-视觉空间智能: 3D空间理解能力，基于Gaussian 3D的空间理解中间表征；
L-语言智能: 从零开始重训智驾LLM，利用智驾现成感知网络能力，并添加其他智驾输入，自定义智驾专用的LLM input tokenizer，预训练时利用未来帧的预测生成和稠密深度的预测增加3D空间理解和推理能力并最终生成Action Token；
自动切换快慢思考，使用固定简短的CoT模板；
借鉴DeepSeek工程化经验使用：MoE和Sparse Attention；
A-行为智能: VLM指导下的动作模型，使用diffusion model生成精细化动作，并通过RLHF微调采样过程，对齐行为生成；
工程优化：VLA在车端芯片的实时推理采用Action Token并行解码、CoT采用小词表和投机推理和使用常微分方程Ordinary Differential Equation（ODE）采样器；
3D场景还原能力和生成模型的新视角补全深度结合，互相增益彼此；

引入VLA下一代智驾架构前，先认识下当前E2E + VLM双系统架构的痛点：

通过E2E + VLM的异步联合训练提升双系统的上限难度较大：（两个独立任务的模型且运行频率差别比较大）；
使用的是开源的LLM模型基座：该基座是基于海量的互联网2D图文数据训练的，在3D空间理解和驾驶数据上是不足的；
后训练优化LLM模型的上限，优化空间也是有限的；
多模型态场景处理难度大，在相同的场景下，不同人的驾驶选择倾向不同，同一个驾驶员不同心情下的驾驶行为也是不同的，最终还得对齐人类的价值观念；

理想VLA模型架构集成了空间智能、语言智能和行为智能，并统一到一个模型内，可微可导。

V(Spatial-Intelligence)：自监督 3D编码器预训练

传统的端到端自动驾驶Pipeline：

传感器输入->感知模型输出动静态检测结果 （监督学习） ->预测模块输出预测轨迹->规划模块输出决策规划；

理想的定义的基于3D高斯表征的端到端自动驾驶Pipeline：

3D高斯均匀初始化+传感器输入-> 3D高斯环境建模与场景重建（ 自监督 ）->预测模块输出未来帧高斯建模场景->规划模块输出决策规划轨迹；

其中，3D高斯环境建模与场景重建可以理解为：BEV->Occ->3D Gaussian这么一个升级路线，3D特征中间表征越来越精细。并且，Occ真值一般是依赖激光雷达生成的，Guassian 3D纯依赖图像。重建场景的目标包含：静态道路结构（车道线和交通标志），动态物体（如车辆和行人）则使用时序高斯分布建模，以支持3D目标检测以及运动预测。

3D高斯场景重建的优势：多粒度、多尺度、丰富的3D几何尺度表达能力、丰富的语义，并且可通过2D-RGB图像做自监督训练，具体细节参考论文：

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

( https://arxiv.org/pdf/2412.10371 )

L(Lingustic Intelligence)：重新设计LLM基座模型(MindGPT)并重新训练该基座模型

重新设计智驾专用的LLM input tokenizer ；
模型架构稀疏化：采用MOE架构+SparseAttention（实现模型容量扩容的同时不会大幅度增加推理负担）；
重构自动驾驶训练数据集：最佳的配比（3D属性真值标注数据 + 减少文史类数据的比例并增加自动驾驶图文数据）；
加入未来帧的预测生成 + 稠密深度的预测；
人类思维模式 + 自主切换快思考慢思考：

慢思考输出精简的CoT（采用的固定简短的CoT模板） + 输出action token；
快思考直接输出action token；

工程优化适配ORIN-X + THOR-U：

CoT生成加速：小词表 + 投机推理（推理模式1: 因果注意力机制token by token的输出）；
action token生成加速：并行解码的方式（推理模式2: 双向注意力机制并行输出）；

A(Action Policy)：生成精细化动作

动作建模和对齐

利用扩散模型Diffusion Model，生成精细化的动作：接入上游输出的action token，生成包括自车轨迹、他车和行人的轨迹，提升VLA模型在复杂交通场景下的博弈能力。另外，该模型可以根据外部的实时交通环境改变生成结果（图像生成领域称其为多风格生成）。

引入多层DIT（Diffusion Transformer）结构；
基于常微分方程的ode采样器大幅的加速diffusion的生成过程，大概在2～3步内完成轨迹的收敛；
使用RLHF做后训练，通过人类偏好数据集微调模型的采样过程，对齐人类驾驶员的行为，提高安全驾驶的下限。其中，人类偏好数据集搭建：人类驾驶数据 + NOA的接管数据

World Model + 强化学习打通自动驾驶闭环仿真链路：

首先，抛出痛点：

传统的车端架构不能实现端到端的可训练，强化学习做一种稀疏的弱监督过程，在当前的架构上无法实现高效无损的信息传递，强化学习的效果的大大降弱；
过去都是基于3D的游戏引擎，场景真实性不足，缺少真实的交互自动驾驶交互环境；
场景建设效率低下且场景建设规模小，模型很容易学偏，发生hack reward model，模型往往不可用。

紧接着，指出VLA架构现有能力及可拓展性：

当前的端到端VLA架构解决了痛点1；
通过真实、良好的3D交互环境数据做3D重建和生成，优化训练过程可以解决痛点2。目前，纯生成模型的优势劣势都很明显。优势：模型具备良好的泛化能力能够生成多变的场景；劣势：出现不符合物理世界规律的幻觉。且在大视角变幻下可能出现空洞和变形，无法在多视角下高质量生成。理想的解决方案是：在不同的视角下添加噪音训练模型的生成能力；
通过3D重建和生成模型的联合优化，以及英伟达计算平台的计算训练技巧解决了痛点3，生成高质量多视角的3D场景；

至于如何有效的结合自动驾驶场景重建和生成：技术细节可参见理想团队今年CVPR2025中的四篇论文：

StreetCrafter、DrivingSphere、DriveDreamer4D与ReconDreamer（备注中贴了链接）。

理想的的智驾方案确实很优秀。但是，实车体验下来，目前距离FSD还有一定差距。我认为，工程能力是一家智驾公司的下限；而AI能力，则是整个智驾产业的最上限。相信，通过不断努力，国内智驾也将在不断升级迭代过程中逐渐看见光明的未来。

公号👇发消息“ 我来了 ”，可直接领取 “10G+自动驾驶相关资料”

联系 & 声明

进交流群

号主六耳

知识星球

声明：除文内特殊声明外，本公众号内所有文章编写或转载的目的仅用于学习和交流，不予以商用，不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有，凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳（微信号：adas_miao ），本号将及时处理。

转发、点赞、在看

，安排一下？

理想全新一代智驾 VLA 技术方案解读

正文

请到「今天看啥」查看全文

V(Spatial-Intelligence)：自监督 3D编码器预训练

传统的端到端自动驾驶Pipeline：

传感器输入->感知模型输出动静态检测结果（监督学习） ->预测模块输出预测轨迹->规划模块输出决策规划；

理想的定义的基于3D高斯表征的端到端自动驾驶Pipeline：

3D高斯均匀初始化+传感器输入-> 3D高斯环境建模与场景重建（自监督）->预测模块输出未来帧高斯建模场景->规划模块输出决策规划轨迹；

模型架构稀疏化：采用MOE架构+SparseAttention（实现模型容量扩容的同时不会大幅度增加推理负担）；

重构自动驾驶训练数据集：最佳的配比（3D属性真值标注数据 + 减少文史类数据的比例并增加自动驾驶图文数据）；

加入未来帧的预测生成 + 稠密深度的预测；

人类思维模式 + 自主切换快思考慢思考：

慢思考输出精简的CoT（采用的固定简短的CoT模板） + 输出action token；

快思考直接输出action token；

工程优化适配ORIN-X + THOR-U：

CoT生成加速：小词表 + 投机推理（推理模式1: 因果注意力机制token by token的输出）；

action token生成加速：并行解码的方式（推理模式2: 双向注意力机制并行输出）；

请到「今天看啥」查看全文

理想全新一代智驾 VLA 技术方案解读

正文

请到「今天看啥」查看全文

V(Spatial-Intelligence)：自监督 3D编码器 预训练

传统的端到端自动驾驶Pipeline：

传感器输入->感知模型输出动静态检测结果 (adsbygoogle = window.adsbygoogle || []).push({}); （监督学习） ->预测模块输出预测轨迹->规划模块输出决策规划；

理想的定义的基于3D高斯表征的端到端自动驾驶Pipeline：

3D高斯均匀初始化+传感器输入-> 3D高斯环境建模与场景重建（ 自监督 ）->预测模块输出未来帧高斯建模场景->规划模块输出决策规划轨迹；

模型架构稀疏化：采用MOE架构+SparseAttention（实现模型容量扩容的同时不会大幅度增加推理负担）；

重构自动驾驶训练数据集：最佳的配比（3D属性真值标注数据 + 减少文史类数据的比例并增加自动驾驶图文数据）；

加入未来帧的预测生成 + 稠密深度的预测；

人类思维模式 + 自主切换快思考慢思考：

慢思考输出精简的CoT（采用的固定简短的CoT模板） + 输出action token；

快思考直接输出action token；

工程优化适配ORIN-X + THOR-U：

CoT生成加速：小词表 + 投机推理（推理模式1: 因果注意力机制token by token的输出）；

action token生成加速：并行解码的方式（推理模式2: 双向注意力机制并行输出）；

请到「今天看啥」查看全文

V(Spatial-Intelligence)：自监督 3D编码器预训练

传感器输入->感知模型输出动静态检测结果（监督学习） ->预测模块输出预测轨迹->规划模块输出决策规划；

3D高斯均匀初始化+传感器输入-> 3D高斯环境建模与场景重建（自监督）->预测模块输出未来帧高斯建模场景->规划模块输出决策规划轨迹；