世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

机器之心 · 公众号 · AI · 2024-12-14 09:00

主要观点总结

文章主要讨论了智驾技术中的「端到端」模型与「世界模型」的概念，以及它们在实际应用中的区别和趋势。文章指出随着技术的发展，车企正在从L2到L4级别迈进，而「端到端」的技术思路虽然削减了传统模块化方案中的手写代码的局限性，但在实现L4级别时仍需引入基于知识驱动的世界模型。文章详细介绍了世界模型在智驾系统中的作用，包括理解世界和预测未来，以及在实际车企中的落地应用。同时，文章还介绍了世界模型在自动驾驶中的整合应用，主要集中在场景生成、规划与控制机制方面。最后，文章提及了关于世界模型的一些讨论和争议。

关键观点总结

关键观点1: 『端到端』模型与『世界模型』的概念及其在智驾技术中的应用

『端到端』模型是数据驱动的，主要解决的是现有数据的拟合问题，而『世界模型』则是基于知识驱动的，旨在解决更复杂场景下的预测和规划问题。

关键观点2: 『世界模型』在自动驾驶中的作用

『世界模型』通过感知模块收集数据并理解世界，然后预测未来环境状态，为自动驾驶系统提供丰富的训练数据和预测支持。

关键观点3: 『世界模型』在实际车企中的应用

『世界模型』在实际车企中主要用于生成数据和提高决策安全性两个方面，通过重建+生产的方式来生成模拟数据，为自动驾驶系统提供虚拟环境。

正文

本文来自PRO会员通讯内容，文末关注「机器之心PRO会员」，查看更多专题解读。

从 BEV 感知的纯视觉路线，到重感知、轻地图的「无图化」趋势，再到今年年中，推崇的「端到端」技术路线，这一年各家车企们的大体智驾技术方向几乎相差无几。

尽管「端到端」的技术思路大幅削减传统模块化方案中的手写代码的局限性，及信息传输中存在的延迟和数据缺失问题。但业内有观点认为，端到端的本质仅是拟合现有数据，并没有给出某些智能逻辑，因此模型的能力受到数据的表现限制。数据驱动的端到端只能实现 L3，要通往 L4，则需要引入基于知识驱动的世界模型。

01. 「端到端」模型上车概念的热潮下，世界模型才是通往 L4 的关键？

为什么说世界模型是通往 L4 级别的关键？

02.世界模型如何在智驾系统中发挥作用？解决了哪些问题？

与端到端大模型相比，区别是什么？解决什么难题？在实际落地应用中，世界模型在智驾系统中的哪些部分起具体作用？

03. 哪些车企押注看好世界模型？

有哪些车企在方案中引入了世界模型？思路上有何异同？

01 「端到端」模型上车概念的热潮下，世界模型才是通往 L4 的关键？

1、近日，小米继 SU7 之后，又官宣了其 YU7 车型，迅速引发了关注。在「蔚小理」的国内新势力车企格局之下，华为作为高阶智驾市场方案提供商的第一梯队，与闯入造车新势力的小米，共同形成了「蔚小理华米」的格局。

2、从 BEV 感知的纯视觉路线，到重感知、轻地图的「无图化」趋势，再到今年年中，推崇的「端到端」技术路线，这一年各家车企们的大体智驾技术方向几乎相差无几。

① 今年，各家新势力的车企在高阶智驾的路线方向主要集中在「端到端」大模型上车。接近年末，各家车企将「端到端」的思路进一步宣传为消费者更能感知的「车位到车位」的概念。小鹏汽车在今年 11 月的广州车展上，发布了全新的「车位到车位」智驾方案。理想、蔚来等其他车企也陆续推出相关定位的产品。

3、随着技术的进一步发展和成熟，各家车企正在从 L2 到 L3、甚至 L4 级别迈进。尽管「端到端」的技术思路大幅削减传统模块化方案中的手写代码的局限性，及信息传输中存在的延迟和数据缺失问题。但业内有观点认为，端到端的本质仅是拟合现有数据，并没有给出某些智能逻辑，因此模型的能力受到数据的表现限制。数据驱动的端到端只能实现 L3，要通往 L4，需要引入基于知识驱动的世界模型。

02 世界模型如何在智驾系统中发挥作用？解决了哪些问题？

1、自动驾驶领域的「生成式世界模型」的概念最早来自 CVPR2023 自动驾驶的研讨会，特斯拉和 Wayve 两家的介绍。[1]

① 特斯拉介绍其「世界模型」，可以在云端生成用于模型训练和仿真的驾驶场景，同时还可以压缩部署到车端；

② Wayve 发布了名为「GAIA-1」的生成式世界模型，能够同时输入视频、文本和动作来生成真实的驾驶场景，同时提供对自车行为和场景特征的细粒度控制。GAIA-1 学习到的强表征能力包括高级结构和场景动态、情境意识、概括和理解几何信息等，能够理解并再现世界的规则和行为。该模型将世界建模视为序列建模问题，通过把输入转化为离散的 tokens，预测序列中的下一个 token。[2]

2、现有的自动驾驶系统在面对非结构化的复杂现实世界场景时仍充满挑战，关键问题在于有效地预测各种可能出现的潜在情况以及车辆随着周围世界的演化而采取的动作。世界模型在自动驾驶中的应用可以简单分为两部分，即理解世界和预测未来。[3]

① 世界模型需要实时的感知道路条件，并准确预测其变化。具体来说，世界模型通过感知模块（摄像头、雷达、激光雷达等）收集的图像、视频和点云数据来理解世界，执行物体检测和地图分割，然后将感知的环境信息投影到几何空间，由此构建对周围环境的隐式表示，进一步进行决策；

② 接着，世界模型预测模块在这些几何空间内运作，预测周围环境的未来状态，包括交通参与者的轨迹和运动等，对于车辆的预测和规划至关重要。

③ 世界模型通过提供一个统一的框架来处理感知、预测和规划，使得自动驾驶系统能够更有效地理解和响应复杂的交通环境。这种集成的方法有助于减少信息丢失，提高决策的准确性，并最终提升自动驾驶系统的性能。

3、世界模型在自动驾驶中的整合，主要集中在场景生成、规划与控制机制方面。

① 传统的传感器仿真方法，如 NeRF 与 3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。自动驾驶世界模型作为数据生成引擎，通过学习真实世界的驾驶数据分布，来生成多样化和逼真的驾驶场景视频，不依赖于人工标注的数据，可以为自动驾驶系统提供丰富的训练数据，使自主系统具备在稀有和复杂驾驶场景中导航的稳健性。例如，GAIA-1 和 DriveDreamer 模型。

② 除了场景生成外，世界模型在预测、规划中的应用较多，世界模型通过实时预测道路环境的变化，来规划最佳行驶路径。例如中科院自动化所提出的自动驾驶世界模型「Drive-WM」，通过多视角和时间建模，共同生成多个视角的帧，然后从相邻视角预测中间视角，显著提高多个视角之间的一致性。同时，与端到端的自动驾驶规划器相结合，利用生成的视频来微调规划器，从 OOD 数据中进行学习，使得规划器在面对这样的场景时可以拥有更好的性能。[4]

3、目前，世界模型在实际车企中的落地应用，主要生成数据和提高决策安全性两个方面。通过引入了世界模型以重建+生产的方式来生成模拟数据，为自动驾驶系统能力的学习和测试创造虚拟环境；另一是通过将驾驶视频作为输入，生成更长时间的预测视频，为智能驾驶系统提供预测和决策支持，提高系统的稳定性及决策的安全性。

4、业内有一种观点认为，世界模型成为像 GPT 一样的自动驾驶领域的基础模型，而其他自动驾驶具体任务都会围绕这个基础模型进行研发构建。而不仅仅是被当作一种仿真工具来生成仿真数据......

关注👇🏻「机器之心PRO会员」，前往「收件箱」查看完整解读

👀 往期回顾 👀

01 AI 竞赛进入推理阶段：扩展测试时计算是万能的吗？Scaling What 成为关键

传统的 Scaling Laws 范式是否已经达到极限？新的 Scaling Laws 范式能否解决数据难题？只要扩展测试时间计算，就能够实现通用人工智能吗？「LLM + 推理模型」是否能实现类人智能？LLM 真的具有推理能力吗？...

02 谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

具身智能创企融资规模如何？明星「练习生」都有哪些头部资源支持？各家创企技术路径有何差异？「练习生」都有哪些技术储备？具身智能还差些什么？...

03 「压缩即智能」，成就 LLM 的 Transformer 未必是终极解？

知识压缩理论已经获得验证了？LLM 范式有变革征兆了？LLM 范式会向哪个方向演进？为什么Transformer 未必能够长青？有哪些声音在质疑Transformer？有哪些非Transformer的可行路线？...

04 从文本到屏幕：「Project Jarvis」们能实现 AGI 吗？

头部 AI 公司为何都在做 AI 自主计算机操控？这事可行吗？和RPA的区别是什么？AI Agent自主操控计算机需要具备哪些能力？微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同？...

更多往期专题解读内容，关注「机器之心PRO会员」服务号，点击菜单栏「收件箱」查看。