专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

端到端智驾的3大技术路线：眼前的苟且与诗和远方

智能车情报局 · 公众号 · · 2025-01-03 18:10

正文

大会预告

1月14日，第四届全球自动驾驶峰会 将在北京举办。在峰会主会场下午进行的 端到端自动驾驶创新论坛 上，中科院自动化所副研究员张启超，零一汽车智能驾驶合伙人王泮渠，昇启科技联合创始人兼CTO刘敏俊，朗歌科技副总经理、智驾地图事业部总经理李战斌将带来报告及演讲，欢迎申请免费票或购票～

“端到端”无疑是今年智驾行业的高频热词，几乎让从业者耳朵听出茧来。如果你想了解端到端智驾的基础知识，可以参考我之前的一篇文章( 端到端自动驾驶祛魅 )。而这一次，我们的重点将聚焦于当前工业界实践中逐步成型的三大技术方案与路线。

端到端主要参与者涵盖了车企、人工智能企业、自动驾驶技术公司机器人公司以及自动驾驶芯片制造商。主机厂包括特斯拉、小鹏、理想等，主要供应商包括华为、Momenta、元戎启行、商汤绝影、百度等公司，自动驾驶技术公司机器人公司包括Waymo、Wayne等。从技术路线看，主流路线包括华为、Momenta、百度、地平线的模块化端到端，小鹏、商汤绝影、理想等的双系统端到端（模块化端到端+VLM）以及Waymo、Wayve等的VLA端到端。

那么，这三种技术路线各有哪些特点？未来又将如何发展？接下来让我们一起来探讨一下。

模块化端到端

定义

模块化端到端 是一种将自动驾驶系统的不同功能模块（如感知、预测、决策和控制）串联在一起，通过一个统一的训练过程来优化整体性能的架构。与传统的分模块设计不同，模块化端到端强调通过神经网络实现信息的无损传递，避免了因人为定义接口造成的信息损失，从而实现全局优化。

技术实现

模块化端到端主要是将感知、建图、预测、规划等模块串在一起训练，基本技术框架是一样的，各家更多是在各个模块和训练工程化上进行优化，图二展示了UniAD的系统pipeline，属于模型化端到端的技术代表，地平线今年的VAD、SparseDrive也是比较优秀的工作，感兴趣的可以去看一看。

Fig1. 模块化端到端技术框架

Fig2. Unified Autonomous Driving (UniAD)系统Pipeline

优点

技术成熟度高： 模块化端到端是在感知端到端之上将进一步将决策规划模块从Rule-based改成Learning-based，并且实现全部模块一起训练优化，像标注数据和loss函数基本上继承了之前的方案，因此整体方案属于渐进式优化，整体技术成熟度很高，可以复用上一代建设的很多东西；
计算资源需求低： 模块化端到端将规划AI化之后，实际上相对于之前并未增加多少计算资源，因此无论从训练还是推理上，计算资源的成本在可控范围内；
可解释性高： 模块化的设计会输出感知、预测、建图等结果，使得整个系统更具可解释性；
灵活性高： 模块化设计使得模型能够灵活地处理和编码多种交互，例如多个代理之间的关系，并且各个模块可以根据自己的任务特点针对性优化，这为未来可能的任务扩展提供了便利。

缺点

泛化能力弱： 在长尾场景下可能失败的情况，这表明模块化端到端系统可能在处理罕见或复杂的驾驶场景时存在局限性；
系统复杂性： 集成多个任务到一个统一的框架中可能会增加系统的复杂性，这可能导致调试和维护的难度增加；
长尾场景的挑战： 在一些长尾场景下，如大型卡车和拖车，模块化端到端可能无法准确地检测和预测，这表明系统无法利用世界知识导致在处理罕见或复杂情况时仍有改进空间；
任务之间的依赖 ：端到端系统的性能可能受到先前任务性能的影响，如果感知或预测任务的性能不佳，可能会影响后续规划任务的结果。

模块化端到端方案之所以被广泛采用，主要得益于其相对较高的易用性和实现效率。在与传统基于规则（Rule-based）的方法对比中，模块化端到端方案不仅突破了规则系统的局限性，具备更高的性能天花板，还展现出更大的潜力。当前，业界仍在积极探索与优化这一技术路径，试图挖掘其在不同场景和任务中的深层次应用价值。

双系统端到端

定义

双系统端到端（Dual-System End-to-End） 是一种融合多种技术体系的综合方法，通过结合传统模块化端到端与VLA端到端框架的优点，构建高效、鲁棒的复杂任务处理系统。此方法在结构上通常包含两个核心子系统：

VLA端到端模块： 以模型（如视觉-语言模型，VLM）为核心，提供强大的感知、场景理解与高阶决策推理能力；
模块化端到端模块： 注重高效的空间推理、实时性以及低资源计算，通过模块化架构提升系统稳定性与可靠性。

这两个子系统协同工作，其中VLA端到端处理复杂的高维场景信息与多模态数据输入，提供智能化的理解能力；模块化端到端专注于对任务的优化处理，特别是在空间推理、实时性以及资源受限场景下提供支持。通过两者的融合实现从感知、分析到决策、控制的完整流程闭环，有效提升了系统在复杂、不确定环境下的性能和泛化能力。

在实际应用中， 双系统端到端 体现了两种架构优势的深度互补，提供从数据到输出的高效、鲁棒的自动化解决方案。

技术实现

双系统端到端技术实现方案通过整合VLM的视觉-语言-行动模型（VLA）优势和模块化端到端系统来提升自动驾驶系统对复杂场景的处理能力，核心点是如何融合两个系统的能力来达到兼具系统1和系统2思考能力，Fig4是理想汽车的实现方式，比较有代表性，像小鹏的XBrain、商汤绝影的DriveAGI也是业内优秀的代表。

Fig3. 双系统端到端技术框架

Fig4. 理想汽车DriveVLM系统Pipeline

优点

结合模块化端到端的优势： 双系统通过结合VLM和传统的自动驾驶管道（如3D感知和规划模块），弥补了VLMs在空间推理和实时规划上的不足；
提高实时性能： 通过与传统规划器的高频轨迹精细化，双系统能够实现实时、高频的推理能力；
泛化性： 双系统的设计类似于人脑的慢思考和快思考过程，能够适应不同复杂度的驾驶场景，提升模型的泛化能力

缺点

系统复杂性： 集成了两个不同的系统，可能会增加系统的复杂性和维护难度；
潜在的延迟问题： 虽然DriveVLM-Dual旨在提高实时性能，但两个系统异步操作可能会引入额外的延迟；
资源消耗： 结合了VLMs和传统方法，可能会导致计算资源和内存的需求增加，尤其是在有限的车载硬件上；
技术成熟度不足： 双系统的融合技术还在探索中，已经落地应用的厂商并不多，目前主要用于场景理解、复杂情况处理等，如何并行发展两套系统并且取长补短实现更好的融合依然需要持续打磨。

VLA端到端

定义

VLA端到端（Vision-Language-Action End-to-End） 是一种以视觉-语言架构为核心的多模态端到端方法，旨在通过统一的语言空间表征实现从传感器输入到规划任务输出的完整自动化流程。

这种方法的主要特征包括：

多模态整合： 通过视觉和语言结合的模型架构，将传感器数据（如摄像头图像）与其他非传感器数据（如导航指令、车辆状态等）转化为统一的自然语言表示，便于跨任务的协同处理；
任务统一性： 以任务特定的提示（prompt）驱动模型，在共享的语言空间中处理多种驾驶相关任务，例如轨迹规划、物体感知、道路地图生成等；
语言增强： 利用预训练大语言模型的世界知识，将自然语言作为输入输出的桥梁，提升多模态数据的表达能力和处理效率。

在实现上，VLA端到端系统直接将原始视觉传感器数据映射为特定驾驶任务的输出，如规划轨迹、感知目标和三维道路信息。通过对感知、规划、决策等任务的联合训练，VLA模型不仅在单任务性能上达到领先水平，还在多任务场景下展现了协同增强的能力。

VLA端到端是一种通过视觉-语言结合实现统一任务处理的多模态系统，为自动驾驶应用提供了全新的范式，具有通用性强、知识丰富的特点。

技术实现

VLA目前尚不成熟，处于预研阶段，整体完成度比较好的是Waymo EMMA，具体技术实现细节可以参见我之前的一篇文章（ Waymo EMMA：下一代端到端智驾大模型）。除了Waymo外，Wayve这家公司也称自己在构建以端到端AI为核心的AV2.0智驾系统，他家的核心产品GAIA-1、LINGO-2也是挺有价值的技术成果。

Fig5. VLA端到端技术框架

Fig6. Waymo End-to-End Multimodal Model for Autonomous Driving（EMMA）系统Pipeline

优点

天花板高： VLA技术方案作为当前我们可以看到的终极智驾解决方案，天花板相对于之前的模型来说非常高，通过大量的数据结合大模型完全可以达到甚至超过人类的驾驶能力；
泛化能力强： VLA模型利用超大规模的语言模型和海量的互联网数据，能够积累和处理比人类驾驶员更广泛的驾驶知识。这种能力使得VLA在处理自动驾驶中的主要挑战长尾问题方面具有显著优势；
数据标注成本低： VLA模型的一个显著优势是其对数据标注的低依赖性。它不需要昂贵的人工数据标注过程，而是可以直接利用驾驶员的驾驶数据。这使得数据集能够以极低的成本进行扩展，从而高效地提升大模型的性能和规模。

缺点

可解释性弱：端到端模型通常被认为是“黑箱”，这可能导致在出现错误或意外行为时难以诊断和修正。提高模型的解释性对于自动驾驶系统的接受度和信任至关重要；
计算资源需求高：端到端模型通常需要大量的计算资源来进行训练模型，这有可能会提高智驾端到端的门槛，未来为加速淘汰缺少计算资源的公司；
可控性差：大模型容易出现幻觉导致行为规划难以控制，这也是大模型普遍存在的问题，建设一个可信、可控的大模型仍然存在诸多挑战；
技术不成熟：VLA相对于模块化端到端来说整体技术方案来说变化非常大，目前还处于技术探索和验证阶段，距离实际量产上车仍需要大量的场景测试；
实时性差：在实际的自动驾驶应用中，系统需要实时响应各种突发情况，VLA的实时性能，特别是在处理高动态和复杂交通场景时，需要更大的算力，下一代Nvidia Thor有可能会解决这一问题。

结论

智驾端到端技术的发展历程可以概括为三个清晰的阶段：模块化端到端→双系统端到端→VLA端到端。每一代技术的演进都是为了解决智能驾驶系统中的痛点问题，肩负着推动行业发展的历史使命。尽管面临重重挑战，但每次技术的进步为产品体验带来了革命性的提升。我们有理由相信，智能驾驶技术将很快走进每个人的日常生活。

最后来句鸡汤：路走对了，就不怕远。

参考资料

端到端智驾的3大技术路线：眼前的苟且与诗和远方

正文

双系统端到端

VLA端到端

请到「今天看啥」查看全文