专栏名称: 汽车商业评论

推动中国汽车向前进

三人谈｜端到端：唯一路线？终局？

汽车商业评论 · 公众号 · 汽车 · 2024-09-26 07:00

正文

撰文 / 王剑

编辑 / 轩辕奖执委会

设计 / 师瑜超

我们为什么要关注“端到端”？

据轩辕奖执委会统计，在最近4个月（20240517-20240919），至少14款搭载“端到端”技术的车型在中国市场推出（含OTA更新），截止今年年底，还会有4款车型推出。另外，布局此项技术的车企或智驾供应商6家以上。

向下滑动查看更多▼

随之，能看到一系列他们争夺“领先”的宣传——“行业首发、业内首个、全球唯二”；以及对“端到端”智驾体验的描述——“类人、拟人、超人”；还有技术路线的不同——两段式、一段式可解释、一段式不可解释。

正如上图所示，主流车企+智驾供应商已经推出相关车型，第二梯队的企业也有布局。另外，从近期第十二届轩辕奖的申报车型中，我们也发现了好几款搭载“端到端”技术的车型。显然，这是继2022年BEV、2023年OCC占用网络之后，2024年智驾领域最热、最引人关注的技术方向。

但，引人思考的是，“端到端”是乘用车智驾的唯一路线吗？真的适合所有车企与车型？要做好必备条件是什么？算力成本1-2亿元就够吗？从消费者体验而言，所带来的功能有多重要？轩辕奖在今年的实车评测中，会用怎样的方法来检验这项技术所带来的效果？

拨开迷雾，探索本质。

为此，我们采访了轩辕奖评审团与顾问团中智驾领域的3位专家，他们是——轩辕奖评委、同济大学汽车学院教授朱西产；轩辕奖技术顾问与合作伙伴、魔视智能创始人虞正华，以及另一位技术顾问与合作伙伴、知行科技创始人兼CEO宋阳——他们从自身多年学术与实战经验出发，表达了自己的见解。

非唯一路线、高端车先上

Q：我们很好奇，“端到端”一定是未来乘用车智驾的唯一路线吗？所有车企都适合这条路吗？

朱西产（轩辕奖评委、同济大学汽车学院教授）：从目前看，“端到端”是实现自动驾驶唯一的计算路线。但是并不是所有车企都要做具备自动驾驶功能的高端车型，价格在15万元以下乘用车是主力车型，BOM成本在3000-5000元人民币的NOA系统肯定不会走完全“端到端”技术路线，所以“端到端”这条路并不适合所有车企。

虞正华（轩辕奖技术顾问与合作伙伴、魔视智能创始人）：端到端是主要路线，特别是近两三年，端到端的上车还是主要处于技术探索和验证的阶段。对车企来说，有很多不同定位和价位的车型，技术方案要根据产品需求和定位来选择。端到端技术的优势是用户体验上限高，但是所需资源也相应更多，更适合注重用户体验的高端产品，在近几年不适合注重成本的高性价比产品。

宋阳（轩辕奖技术顾问与合作伙伴、知行科技创始人兼CEO）：端到端方案具有“上限高，但下限低”的特点。通俗来说就是，做得好可以达到很好的效果，做得不好比传统方案更差。

对于 L2 和 L3 来说，“端到端”只是可行方案之一，在应用时还需要与其他技术方案进行组合搭配。域控制器式架构的数据规模与里程积累正相关，销量加速才能增加里程积累，并使得数据规模快速提升。

所以个人认为，主机厂中央计算架构车型配置和销量相对集中，更有利于数据运营、人才建设、AI基建等多方面能力的建设与提升，使得车企能更好地布局“端到端”方案。

Q：“端到端”的优劣势，分别是什么？

朱西产：“端到端”模型的优势，是减少了各模块之间信息传递过程中的信息丢失，通过Transformer构成一个更大的网络，训练过程中实现更多参数的全局最优。另外还可以提升开发效率、全局优化、更强泛化性等。

“端到端”的缺点，是无法与人工准则模型进行组装，尤其是涉及安全的准则模型，我们认为在运动规划算法中一味地强调“丝滑”，而取消安全准则模型的算法存在巨大安全隐患。另外还有数据要求质量高+数量大、算力难题、算法难题、可解释性难题、模型设计难题、上车难题等挑战。

虞正华：

优势——

1）用户体验：基于算法原理上的突破，能够提升用户体验的上限。

2）提升开发效率：简化了系统架构，减少了模块间接口的复杂性，降低了算法开发的复杂性，不需要人工设计各种规则。

3）无损信息传递：不依赖于工程师定义的模块接口，减少了传统模块间的数据转换和信息损失。

4）更强泛化性：得益于VLM等大模型，能够更好地处理各种复杂场景。

劣势——

1）验证方法：对于端到端架构开环的验证手段无法重现实车的所有问题，而实车测试的代价极大。所以需要支持高保真度和传感器一致性的仿真测试方案。

2）数据要求高：需要大量高质量数据进行训练。

3）解释性难题：一端感知输入，另一端输出结果，中间是难以解释的“黑盒”。

4）算力挑战：需要强大的计算资源来支持模型训练和推理。

5）组织资源：端到端的团队对于传统自动驾驶团队分工和工作方法论具有颠覆性，需要重新按照新的技术范式组织人员和资源。

宋阳：在传统自动驾驶系统，不同任务模块针对特定任务独立设计（例如最典型的阿波罗架构），在可解释性、可验证性和易于调试等方面具有优势，但是由于各个模块优化目标不同，如感知模块追求检测精度，规划模块追求驾驶安全性和舒适性，所以整个系统可能会因为错误积累而失效，并且多任务和多模块部署也会增加计算负担。

和传统的自动驾驶系统相比，“端到端”系统有以下优势——

1）可以将感知、预测和规划集合到一个可以联合训练的模型中。

2）整个系统，包括其中间特征，都是针对最终目标进行优化。

3）共享了主干网络，提高了计算效率。

4）数据驱动的优化任务可以通过扩展训练数据不断优化提升系统能力。

不要放弃传统模块化方法，可满足中端及以下产品需求

Q：除了“端到端”，是否还有其他选择？相形之下，优劣势是？

朱西产：目标物感知模块、地图感知模块、轨迹预测模块、占用网络模块及运动规划模块，分功能分别开发AI算法模块和人工准则模块，采用模块组装的方式构建NOA算法模型，能够弥补数据和AI训练算力不足的难题，对智能驾驶域控制器的AI推理芯片的算力需求也能够大大降低，从而有效控制智能驾驶系统的BOM成本。对于15万元以下的乘用车，用户更关注实用性，不会花高价为“自动驾驶”的噱头买单。

虞正华：传统模块化方法，在简单的ODD场景下，能够满足大部分中端及以下产品的需求。

宋阳：行业对“端到端”有似乎神话的倾向，认为其无所不能。事实上，喧闹之外，行业还需要对“端到端”有一些基本常识的认知。

第一，“端到端”并不是一个特别大的模型，比如理想汽车的“端到端”方案其实在一个Orin-x上就能跑通，并且有大量的rule-based兜底。

第二，“端到端”并非万能，其“黑盒”特性决定了无法通过简单而明确可解释的规则约束系统的安全边界，存在安全性挑战。

第三，模型能力评测从模拟环境到真实环境，系统的适应能力和泛化能力有待更广泛的验证。

所以，在目前量产落地的“端到端”方案中，几乎所有玩家都会采取规则兜底的方式进行风险规避。

最痛苦：研发模式的更改

Q：当前的车企或智驾供应商，如果想要做好“端到端”，必须要具备的核心要素是什么？目前有解吗？如何解？

朱西产：“人工准则模型”拼人力，“AI模型”的训练测试拼数据和云平台算力。

特斯拉FSD 12版本的“端到端”，是一个参数量高达10亿的“黑箱”AI模，完全取消了人工准则模型，其训练和测试所需要的数据量和云平台算力需求都非常高。特斯拉的用户数据闭环系统在美国以及全球有400多万辆车型能够为FSD 12版本的训练收集数据，Dojo平台算力高达100E Flops（折合英伟达A100算力，约30万张卡），建设费用高达100亿美元。

特斯拉已经证明，与模块化算法结构对比，“端到端”结构能够提升智能驾驶的性能上限，这是风魔“端到端”的原因。

但是，根据Scaling Low，国内车企走“端到端”技术路线，将受到数据量和训练平台计算能力的限制。由于AI热，现在全球范围内高算力AI计算芯片一卡难求，再加上美国的限制，国内企业要购买AI训练显卡非常贵、并且难买到。国内目前车企有万卡训练平台的企业就屈指可数。

目前国内企业中，华为已经具备破除“端到端”Scaling Low魔咒的能力，华为海思云计算高算力AI芯片昇腾910的性能，能够匹敌英伟达A100；昇腾910B能够匹敌英伟达H100。华为云并不缺高算力云计算平台。

并且，由于问界系列车型的热销，以及华为系的智界、享界、阿维塔、极狐等车型的数据都可以通过“八爪鱼”用户数据闭环系统进行数据收集，能够提供数据的车型也很快能够达到百万辆这个量级。相信我国智能驾驶计算不会被特斯拉甩开。

虞正华：

核心要素包括——

1）算法研究能力：算法团队对VLM等AI算法有深入理解和创新能力，并可以结合开源社区的进展。

2）数据处理能力：包括数据挖掘、采集、清洗、标注和增强。

3）算力资源：强大的计算资源来支持模型训练和部署。

4）测试验证：建立有效的测试验证流程和工具。

解决方案——

建立这些核心能力需要大量的投入，不是所有公司都有能力全部独自进行。所以企业应该了解自身优势，明确定位，在最核心的要素上发力，在其它技术要素上采取生态合作的方式，利用技术社区和行业分工的力量。

宋阳：“端到端”算法将带来的研发模式地更改，这才是每个主机厂和自动驾驶公司需要关注的重点，也是最痛苦之处。

“端到端”以纯数据驱动的多模态大模型为核心，如果某智驾公司之前的技术方案有很多规则，那这些规则基本上就都要被推翻了；如果之前的技术方案已经大部分改为模型驱动，那么这部分代码大概率能以某种形式重用。

除了模型端以外，“端到端”也需要进行更多数据方面的工作：重构数据闭环体系及其迭代效率，“端到端”的测试和验证。其中，如何将整个仿真平台的传感器输入做得足够真实，是目前非常有挑战性的技术问题。

纯“端到端”算力成本，每年约一到两个亿

Q：您认为，现在中国车企或智驾供应商，哪些是真正有实力来做这件事的？

朱西产：华为肯定没问题，畅销车（获取数据必备）、云计算、AI大模型能力、车端芯片、工程经验，一样也不缺。并且华为有近千亿的自有资金用于智能汽车研发。

理想汽车AI基础设施虽然差一些，但是理想L系列车型持续热销，也即将进入百万量级，数据是AI的基础，只要增加AI算力投入，也可期待。

供应商角度，地平线、Momenta的生态做的好，也是可期的。

虞正华：华为是有实力做这事的一家企业，其它头部的AI算法能力极强的供应商也有可能做成这件事。车企里面，估计极少数头部的车企有可能做成这事。

魔视智能作为一家以AI算法为核心优势的供应商，也会投入并期待在端到端的方向做出自己的贡献。

宋阳：“端到端”所需的算力主要用于“训练”和“部署”两方面。“部署”是采购多少块域控数量的问题，其成本固定且较低，并与单车成本相关。最大的成本是“训练”成本，分自建买卡和跟云服务商合作两种。对订单量比较大的车企来说，自己造数据中心更加合算；但对订单量没有那么大或处在前期研发阶段的车厂和供应商来说，找云服务商租服务器是较好的选择。

如果只是简单的一次“端到端”自动驾驶模型训练，上百张大算力的 GPU 就可以支持。但是要长期投入，并保证“端到端”质量的话，自动驾驶公司的训练算力规模基本在上千卡级别，车企投入会更多。

从综合成本来说，作为技术演进的纯“端到端”算力投入，其实小于模块化架构，每年成本约一到两个亿，知行会稳步推进，持续渐进地赋能我们的核心客户和伙伴。

“端到端”，非终局

Q：对当下中国市场“端到端”的火热，三位如何看待？

朱西产：更多是为了流量，实际上国内车企具备做“端到端”的技术实力的没几个，但是，嘴上不能输啊，打仗呢，一躺下就再也起不来了。

虞正华：自动驾驶技术近几年依然在快速迭代，端到端目前还只是一个比较宽泛的概念，实际的实现方法有很多的不同，而且端到端也不是技术的终局。在技术向前发展的大趋势中，企业应当根据自身定位逐步打造核心能力，比如数据闭环的能力。

宋阳：在过去的2年里，AI的发展速度超过历史任何时期，但即使如此迅速和火热，我坚信我们还处于AI变革的早期。我们能看到的是“端到端”已经在改变研发体系，加速智能车的电子电气架构变革和算力提升。

是用户核心需求吗？什么最重要

Q：从消费者的角度而言，他们更多关注“端到端”带来的驾乘体验。那么，“端到端”究竟会带来哪些功能或体验（智驾方向）？

朱西产：“端到端”从用户体验角度是“丝滑”，与人工准则模型不同，采用用户数据闭环采集的数据训练出来的AI模型，驾驶风格更像一个“老司机”。

虞正华：我更关注更好的用户体验，以及安全性。用户体验主要是在日常使用的城市路段可以应对高峰期拥堵的车流，更好的安全性是可以比人开车更安全，包括端到端的主动安全功能。

宋阳：第一，在长尾场景的处理上，“端到端”系统能够比原来的系统覆盖更多的极限场景，如常识处理能力。

第二，自动驾驶系统的行为更加拟人化，也能够更强地建立消费者和系统之间的信任，“端到端”在博弈性比较强的场景里更像人类司机。

第三，数据驱动能快速解决热点问题，快速迭代优化以回应消费者的热点诉求。

Q：那么，这些功能或体验，是用户的核心需求吗？

朱西产：我认为安全才是智能驾驶的核心需求，我不认为“端到端“技术能给用户带来核心需求。

虞正华：总体来说，用户的核心需求是希望在其选定的车型上实现相对最好的智驾体验。因此，对高阶车型而言，最好的体验是核心需求，这部分用户对成本不敏感；对中阶以下的车型而言，性价比是更核心的需求。

宋阳：安全、安心、好用、拟人、快速迭代，这些毫无疑问是目前所有智驾系统的核心需求。

有分歧：15万元车型是否搭载

Q：针对刚才描述的用户体验，对比车企为“端到端”付出，这样的投入产出比，划算吗？

朱西产：不划算，但是对于50万元以上的豪华车，没必要去计较是否“合算”。但15万元以下的主流车型，现在一窝蜂的“端到端”，肯定是不划算的，走通“端到端”，企业投入巨大，而15万元经济型车型的车主不会为“端到端”的噱头买单，企业会赔的更多。

从电动化到智能化，汽车越造越好，但是汽车企业好像赔的越来越多，我觉得没有几个企业能继续为“端到端”噱头把自己赔死也要做的。

虞正华：这取决于车企的定位，个人认为需要量力而行。极少数的车企出于自身的定位和资源积累情况，需要做端到端，但是并不是所有的车企都能够并且需要付出这么大的投入，做汽车行业智能化先驱。

宋阳：开个玩笑，每个人都得要买菜做饭吃饭，所以不能从“划算不划算”的角度考虑这么重要的事。

从大行情上说，参照《2024麦肯锡中国汽车消费者洞察》，中国消费者对自动驾驶功能的兴趣有所提升，但相比2023年，愿意为自动驾驶功能付费的金额却有所下降。

但是前面其实也谈到了，“端到端”由if-else的规则人工堆叠变成数据驱动，迭代的效率、研发人员的数量、数据投入和AI基建这些因素都处于一个动态平衡的过程中，最后就是“什么时间，买什么菜，做什么饭”的经济性问题了。

在汽车行业日益激烈的“内卷”竞争中，知行作为从业者，必须要将我们要交付的智驾系统做成像筷子一样，人人可用，必用，爱用，所以我们会优先考虑把“端到端”落地到泊车和安全类功能这些高频刚需场景中。

如何评测“端到端”车型？

Q：在「轩辕奖」入围车型实测中，二位的公司负责智能驾驶方面的测试，请问对于目前“端到端上车”带来的功能，您会怎样测试？主要考量的维度是什么？

虞正华：作为轩辕奖测试合作伙伴，我们在测试中会关注系统的安全性、舒适性和人机交互友好程度。针对端到端技术带来的变化，我们会重点关注对用户体验敏感的场景，比如复杂的交通流，不规范的道路，不清晰的路面标识等场景。

宋阳：

1）系统配置（算力、传感器配置等）

2）系统性能（边界、复杂场景）

3）系统安全能力（安全场景表现）

4）系统舒适性（交互、易用性、安心感）

5）通行效率（路径优化、功能速率等）

陶海龙：绝不做急功近利的事情

暴跌、关厂、裁员，欧洲汽车末日降临

中国汽车采购和研发首次越界大碰撞

今天的问界就是昨天的BBA，新M5更像宝马？

点击阅读原文
▼