专栏名称: 芝能汽车
本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
目录
相关文章推荐
汽车最前线  ·  10万买旗舰轿车!A6L同级,带无框车门,每 ... ·  3 天前  
芝能汽车  ·  LG新能源2024年:并不好看的成绩单,新财 ... ·  4 天前  
有车以后  ·  惊!这款车或成长安启源 A07 等竞品的 ... ·  4 天前  
51好读  ›  专栏  ›  芝能汽车

2025年的智能驾驶:VLA上车元年

芝能汽车  · 公众号  · 汽车  · 2025-01-27 08:12

正文

芝能科技出品


2025年被称为“VLA上车元年”,以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。


VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了“思维链”技术,实现了全局上下文理解与类人推理能力,革命性技术的落地将推动智能驾驶从“功能时代”迈向“体验时代”,并可能在未来两年内改写智能驾驶市场的竞争格局。


我们从VLA的定义与核心价值、以及其对2025年头部车企智能驾驶性能的影响展开深度分析。



01

什么是VLA,

为什么智能驾驶要切换到VLA?


● 什么是 VLA?


VLA 即视觉语言动作模型(Vision - Language - Action Model),最早由 DeepMind 于 2023 年提出并应用在机器人领域。它能够输入给定的文本和视觉数据,输出机器人可执行的动作,具有 AI 与物理世界交互的天然基因。


◎ 从整体框架来看,VLA 可视为 VLM(视觉语言模型)与端到端模型的结合体。


VLM 着重于图像和场景的理解,为智驾决策规划提供输入;而 VLA 则将端到端与多模态大模型更彻底地融合,能够根据感知直接生成车辆的运动规划和决策,更接近 “图像输入、控制输出” 的端到端智驾理想状态。


Google 的 RT - 2 模型通过将 VLM 直接应用于机器人控制,实现了视觉、语言和动作的无缝衔接,提升了机器人的泛化能力和适应性。


◎ 在自动驾驶领域,VLA 模型可以从传感器数据中提取丰富的环境信息,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令。



● 智能驾驶切换到 VLA 的原因


随着城区NOA(Navigate on Autopilot)的普及,用户对智能驾驶体验的需求从“能用”转向“好用”。


传统VLM或端到端方案虽然在感知与决策方面有了显著提升,但在复杂路况下仍存在局限:


◎ 短视化问题:现有系统通常只能应对7秒内的路况推理,而在突发情况(如交通指挥手势)中表现不足。


◎ 缺乏解释能力:用户对“为什么这么开”的需求未被充分满足,导致体验层面信任不足。


◎ 决策全局性不足:面对动态复杂场景,传统方案难以统筹多重变量并实现安全优化。


VLA的引入不仅补足了技术短板,也标志着智能驾驶从探索期进入规模化落地期。在2025年,VLA的量产落地预计将推动城区NOA渗透率突破个位数,进一步缩短行业格局的技术差距。


智能驾驶领域的技术路线经历了重大变革。那些能够迅速掌握并应用VLA的企业,已经在竞争中占据了有利位置,并展示了其在技术创新方面的前瞻性。


市场竞争焦点从单纯的功能实现转向了更深层次的技术范式竞争,强调技术架构的先进性和可持续性发展。


VLA技术的应用不仅推动了企业在相关技术研发上的投入,还促使整个行业重新审视和制定相应的标准与规范,以适应新技术带来的挑战,确保智能驾驶的安全性、可靠性和可解释性,从而促进该行业的健康稳定发展。


能否及时跟上这一波技术革新潮流,成为了决定企业是否能在未来智能驾驶市场中脱颖而出的关键因素。


02

2025年VLA上车后,

智能驾驶头部车企

的性能会拉开差距吗?


2025年,随着VLA技术的上车,智能驾驶头部车企的性能将显著拉开差距,主要体现在技术积累、数据规模和算力支持等方面,头部企业在端到端和视觉语言模型(VLM)领域已有丰富的经验积累,能够更快实现VLA的研发和落地。


此外,通过爆款车型积累了海量驾驶数据,为VLA的训练和优化提供了坚实基础。英伟达Thor等高性能芯片的量产也为VLA的上车提供了强大的算力保障,头部车企在芯片适配和优化方面具备先发优势。


● “技术-数据飞轮”的竞速:


◎ 技术优势转化为数据优势:VLA技术所支持的长时间推理与全局决策能力,将显著提升城区NOA的实际使用频率,进而为车企积累更大规模、更高质量的真实场景数据。


◎ 数据优势强化技术优化:基于Scaling Law(规模律),数据规模的提升将反哺算法性能迭代,进一步提升用户体验。这种正向循环有望在短时间内拉开头部车企与第二梯队之间的技术差距。


● VLA上车后,头部车企的性能优势将在多个维度上显现:


◎ 场景覆盖能力:VLA的强推理能力和泛化性使头部车企的智能驾驶系统能够应对更多复杂场景,显著提升用户体验。


◎ 决策拟人化:VLA的“类人”思维使智能驾驶系统的决策更加拟人化,减少突兀的驾驶行为,增强用户的安全感和舒适度。


◎ 系统可解释性:VLA的高可解释性增强了用户对智能驾驶系统的信任,提升了品牌忠诚度。


后发者当然也可以通过正确的方法来一次系统性的赶超,当然VLA的研发需要大量时间和资源投入,导致研发周期长,难以在短期内追赶领先者,高性能芯片和VLA模型的部署大幅增加了研发和制造成本,这还是金钱的游戏。


2025年VLA的上车预计会引发新一轮的“智驾格局洗牌”,技术和数据的双重优势将进一步巩固市场地位,而中小玩家则面临更加严峻的技术和资金挑战,智能驾驶在2025有了技术范式的革新,也重新定义了市场竞争的规则。



小结



智能驾驶行业正站在VLA技术引领的新起点上。从感知时代到决策时代,VLA为行业提供了更强的泛化能力、更优的推理能力和更高的透明性。

在技术飞轮与爆款效应的双轮驱动下,2025年有望成为智能驾驶从功能化走向体验化的关键一年。