当北京、武汉等城市率先对L3级智能驾驶亮起绿灯,中国智能汽车产业正式进入“技术兑现期”。在这场由政策牵引、资本助推的产业革命中,理想汽车近日公布的下一代智能驾驶技术——MindVLA的技术细节,或将成为改写行业游戏规则的关键变量。这套整合空间智能、语言智能与行为智能的视觉-语言-行为大模型,试图用“类人思维”突破智能驾驶的“机器逻辑”困局,描绘出真正能“击穿用户心智”的智驾爆款应有的模样。
MindVLA
:开启智能驾驶的新范式
真正的智能驾驶必须学会“像人一样思考”,而非“像机器一样执行”。MindVLA是理想汽车为智能驾驶领域带来的全新范式。该大模型将空间智能、语言智能和行为智能统一在一个模型里,赋予模型强大的3D空间理解能力、逻辑推理能力和行为生成能力。这意味着,未来的智能汽车将不再是一个冷冰冰的机器,而是一个能够感知环境、理解用户意图并作出相应行为的智能体。
强大MindVLA模型的背后,是理想汽车6大关键技术的赋能:
1. 3D空间表征:使用能够承载丰富语义,且具备出色多粒度、多尺度3D几何表达能力的3D高斯(3D Gaussian)作为中间表征,利用海量真实数据进行自监督训练,极大提升了传统监督学习在自动驾驶领域中的训练效率和数据利用率低下的问题。
2. LLM基座模型:
理想从零开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),保证模型规模增长的同时,不降低端侧的推理效率。
在基座模型训练过程中,加入了大量3D数据,使模型具备3D空间理解和推理能力。
为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。
通过创新性的预训练和后训练方法,让MindVLA实现了卓越的泛化能力和涌现特性,其不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。
3. 快慢思考统一:理想于2024年在DriveVLM中率先将快思考(端到端)和慢思考(VLM)的模式应用到自动驾驶场景,并实现了量产交付。为了进一步提升逻辑推理能力,理想训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。
4. 推理加速技术:为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性应用并行解码技术,进一步提升了实时推理的速度,最终实现了模型参数规模与实时推理性能之间的平衡。
5. 对齐人类偏好:利用Diffusion模型将Action Token解码成优化的多模驾驶轨迹,提升在复杂交通环境中的博弈能力。同时,Diffusion可以根据外部条件,例如风格指令,动态调整驾驶轨迹生成风格。使用筛选出的大量接管数据,建立人类偏好数据集,创新性应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,使MindVLA不仅能够学习和对齐人类行为,还能在复杂环境中做出更加安全和合理的决策。
6. 从错误中学习:MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,采用实车数据构建接近真实世界的仿真环境。源于世界模型的技术积累与充足计算资源的支撑,MindVLA实现了基于仿真环境的大规模闭环强化学习,即真正意义上的“从错误中学习”。
重塑用户智能体验,开启AI行业新风潮
在竞争日益白热化且技术迭代迅猛的智驾赛道里,MindVLA无疑是国内智能驾驶技术的一次重大突破,为用户体验、智驾行业和人工智能领域提供了宝贵的探索样本。
对于用户而言,有MindVLA赋能的车将不再只是一个驾驶工具,而是一个能够与用户沟通、理解用户意图的智能体。它不仅能够听得懂、看得见、找得到,还能在复杂环境中作出最合理的决策,成为用户真正的“专职司机”;对于智能驾驶行业来说,就像iPhone重新定义了手机一样,MindVLA也将重新定义智能驾驶。推动智能驾驶技术从辅助驾驶向全自动迈进,开启全新的智能驾驶时代;在如火如荼的人工智能领域,MindVLA作为机器人大模型的代表,成功整合了空间智能、语言智能和行为智能。一旦跑通物理世界和数字世界结合的范式后,它将有望赋能更多行业,推动人工智能技术的全面发展和应用。
写在最后:
理想汽车的破局之路,折射出中国智能驾驶产业的集体焦虑与野心。在特斯拉FSD入华的靴子落地之际,MindVLA展现的不仅是技术实力,更是一种产业话语权的争夺——当智能驾驶的核心算法从“代码规则”转向“AI思维”,谁掌握认知模型的底层架构,谁就将定义下一个十年的出行秩序。这场关乎技术主权与人工智能的战役,才刚刚拉开帷幕。