专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

究竟什么是「端到端」的自动驾驶？

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-15 00:10

正文

本文是Wayve 联合创始人兼首席执行官 Alex Kendall 所撰写，前不久 Wayve 宣布获得由软银集团(SoftBank Group)领投的10.5亿美元C轮投资，本文详细阐述了为何「端到端」的自动驾驶技术，以及以「端到端」为核心技术的「具身智能」的发展情况。

今天是 Wayve 的一个重要里程碑，我们自豪地宣布获得 10.5 亿美元的 C 轮融资。

自成立以来，我们一直坚信端到端人工智能将使自治成为可能。这是针对市场其他部分的一种深度逆向策略，我们很高兴看到我们的进步和这笔资金对我们愿景的大力认可。

本博客反映了 Wayve 为何处于关键时刻，以及我们的新合作伙伴软银集团和 NVIDIA ，以及我们现有合作伙伴微软的 C 轮投资将如何帮助 Wayve 推出我们的首款「具身智能」汽车产品。

什么是「具身智能」（ Embodied AI ）？

今天对人工智能的兴奋往往集中在认知人工智能上，比如大型语言模型。它们是一个惊人的突破，将对我们的生活产生巨大影响。但它们仍然受到它们所活动的领域的限制——文字、数据和知识，一个抽象的现实。

我们生活的现实是物理世界，这是我们最重要的互动发生的地方。这就是「具身智能」所实现的，为物理世界带来人工智能的非凡影响。

「具身智能」有望成为人工智能最有价值的应用，有望改变我们与技术的互动。这将开创一个新的技术时代，它将比之前的任何时代都更具影响力。认知人工智能只能释放人工智能最终潜力的一小部分。

展望 20 年后，如果你向某人询问人工智能，大多数人都会将其与改善他们生活的物理机器人联系起来，比如做家务的机器人或自动驾驶汽车。这些应用程序经常出现在科幻小说中，并且是「具身智能」的示例。

在 Wayve，我们正在创建「具身智能」技术，该技术将使自动驾驶汽车等应用能够与人类安全共存，并让人们专注于真正重要的事情，从而改善我们的日常生活。

为什么自动驾驶是实现「具身智能」的最佳途径？

自动驾驶是人工智能的重大挑战，也将是「具身智能」的首次大规模部署。当然，「具身智能」的机会要大得多，那么为什么要从这里开始呢？

从技术角度，我们观察到近十年来各领域驱动的人工智能演进：

• 2012-2018: ImageNet等计算机视觉数据集推动了深度学习的突破，包括AlexNet、BatchNorm和Residual Connections。
• 2018-2024 年：自然语言处理——诸如 Transformer、Attention 和 AI 扩展等发展是通过具有 15T 代币的 Fineweb 等多样化的大规模数据集实现的。
• 未来：机器人和自动驾驶——开放世界部署、安全性和更大规模数据的独特挑战将推动人工智能创新的前沿。

每一项突破都是由当时最具影响力和挑战性数据的领域推动的。这就是为什么「具身智能」正在成为下一个前沿领域。

语言和视觉数据集正在饱和，转向视觉语言模型等多模态来寻找更多数据，而认知人工智能技术正专注于商业开发。相比之下，「具身智能」因其独特的挑战和机遇而继续受到自动驾驶的推动，超越了语言和视觉等领域：

1.自动驾驶大规模解锁全球多样化数据。 视频、雷达和激光雷达数据已达到世界上所有语言数据的数倍。每年，数以百万计的车辆都会配备必要的传感和计算功能，用于训练和部署「具身智能」。这些车辆今天已经投入运行，做有用的工作，这意味着与其他机器人应用不同，可以以较低的运营成本实现数据收集。这些车辆在世界各地运行，体验开放式、无约束的环境，并具有丰富的边缘情况的长尾。

2.自动驾驶需要AI安全解决方案。 自动驾驶领域是人工智能安全创新的主要驱动力，推动人工智能系统处理复杂、不可预测的现实场景。L5 级别自动驾驶将在开放世界环境中运行，可以说需要通用的、无限的推理。这一安全关键挑战要求人工智能系统达到无与伦比的安全水平。其他形式的人工智能，例如封闭仓库操作或在线生成内容，缺乏这些严格的安全要求，并且没有动力去解决这些问题。「具身智能」的成功取决于达到可接受的信任和安全水平，而自动驾驶提供了最终的动力。

3.自动驾驶带来了可行的商业模式： 自动驾驶市场提供了巨大的商业潜力，即使在实现完全自动驾驶之前，高级驾驶辅助系统（ADAS）的商业潜力预计也将超过 1000 亿美元。这个行业可以支持稳定的技术进步和业务增长，逐步引入人工智能驱动的驾驶自动化，以随着时间的推移（甚至在L4 级别部署之前）建立消费者的接受度和信任。

4.自动驾驶带来宝贵的社会效益： 每年约有 120 万人死于交通事故，另有 20 至 5000 万人遭受非致命伤害，其中许多人导致残疾。自动驾驶提供了保留汽车优势的机会，同时显着减少甚至消除了我们为这些优势所支付的成本。此外，通过在 ADAS 等主动安全系统中实施「具身智能」，我们甚至可以在实现自动驾驶之前通过为驾驶员提供必要的支持来增强道路安全。

自动驾驶领域是人工智能安全创新的主要驱动力，推动人工智能系统处理复杂、不可预测的现实场景。

为什么不关注其他形式的「具身智能」，比如人形机器人？

与可以利用数百万辆汽车的自动驾驶不同，其他形式的「具身智能」（例如制造或人形机器人）通常缺乏现有的安装基础或引人注目的商业模式。

如今，道路车辆已在全球范围内使用，无需额外的资本成本即可收集车队规模的数据。此外，受控仓库环境中更简单的拾取和放置机器人任务就像 5 年前亚利桑那州凤凰城的自动驾驶专注于最简单的环境一样。

它产生的解决方案集根本无法扩展到一般环境，并且降低了推进人工智能功能的紧迫性。这使得自动驾驶成为开创通用「具身智能」基础模型的理想领域。

通过应对自动驾驶的挑战，我们推进人工智能技术，并为各行业更智能、更安全的「具身智能」应用铺平道路。但「具身智能」从哪里开始呢？

「具身智能」的起源和演变

「具身智能」早在 Wayve 之前就拥有丰富的历史，具有几个关键的里程碑：

• 20 世纪 50 年代，英国：机器人技术可以说始于英国的 Cyber netic Tortoise，它展示了基本的交互能力。
• 20 世纪 60 年代，美国：斯坦福大学的机器人 Shakey 是第一批能够根据环境观察做出决策的机器人之一。
• 1973年，日本：第一个人形机器人是WABOT-1，由日本东京早稻田大学于1973年开发。
• 1989 年，美国：第一批自动驾驶汽车之一是 ALVINN（神经网络中的自主陆地车辆），它使用端到端神经网络来概括从东海岸到西海岸穿越美国的驾驶。

ALVINN 走在了时代的前面。不幸的是，在 ALVINN 之后，机器人技术的学术和商业焦点都转向了非机器学习方法，这些方法最初依赖于手工编码的规则，如今继续依赖于重量级传感、感知和高清 (HD) 地图。

2004 年至 2007 年 DARPA 的重大挑战以及随后谷歌自动驾驶汽车项目（现称为 Waymo）的商业化就是这一点的缩影。

Wayve 是第一家全力投入「具身智能」端到端深度学习的公司，自 2017 年以来一直是这项技术的先驱：

• 2015 年：在 Wayve 成立之前，Vijay Badrinarayanan（我们的 AI 副总裁）、Roberto Cipolla 和我提出了 SegNet，这是第一个通过端到端深度学习进行语义分割的实时方法，无需 HD 即可理解复杂环境地图。
• 随后，我们于 2017 年与 Yarin Gal 教授一起展示了如何通过多任务学习来理解场景语义、几何和运动，并量化深度学习的安全不确定性。
• 2018 年：首次展示使用无模型强化学习完全驾驶车辆的端到端机器学习策略，标题为“一天学会驾驶”。
• 2018年：推出世界上第一个基于模型的驾驶强化学习系统，该系统于2023年演变成驾驶的生成式人工智能世界模型GAIA。
• 2019 年：展示了如何使用合成数据在 sim2real 场景中学习驾驶汽车，而无需实际经验。
• 2020 年：开始在伦敦繁忙的交通中运营，展示了安全的部署和测试框架。
• 2022 年：展示了我们的技术在不同车辆和地理位置上推广的能力。
• 2023 年：推出 LINGO-2，这是第一个可以驾驶汽车并同时用语言进行对话的视觉-语言-动作模型，开辟了许多新的可控性和可解释性机会。

「具身智能」领域的其他著名研究贡献包括：

• NVIDIA 展示了使用模仿学习通过数据增强进行转向辅助的端到端学习。
• 英特尔的 Vladlen Koltun 团队开发了条件模仿学习技术。
• 麻省理工学院和苏黎世联邦理工学院的团队提出了通用导航方法。
• Uber ATG 的 Raquel Urtusan 团队将端到端学习与高清地图集成，以实现先进的端到端运动规划。
• OpenDriveLab 因其在端到端驾驶学习方面的工作而获得 CVPR 2023 最佳论文奖。

最近，从 OpenAI 的 ChatGPT 开始，大型语言模型和生成式 AI 的功能得到了显着扩展。

2023 年，特斯拉发布了 FSD v12，转变了技术策略，拥抱端到端学习。我们还开始看到业界探索非驾驶「具身智能」应用，例如 Tesla 的 Optimus 和 Covariant 的 RFM-1。

这些里程碑展示了「具身智能」的技术演变和范围的扩大，从基本机制到复杂的交互式系统。

Wayve 首款采用 AV2.0 的「具身智能」产品

首届 DARPA 大挑战赛点燃了自动驾驶汽车的发展，距此已经过去了近 20 年，但进展似乎已经停滞不前。

尽管投资了上千亿美元、进行了数百万英里的道路测试以及数十亿英里的模拟驾驶，但该行业仍然感觉距离实现安全、可持续且易于使用的自动驾驶汽车的未来还很遥远。

一些科技巨头已经能够在非常有限的场景中展示自动驾驶，但在新的驾驶领域却放弃了他们的自动驾驶汽车，他们举步维艰。

随着行业炒作开始消散，挑战变得更加清晰：经典的机器人方法（称为 AV1.0，依赖于复杂的传感器、劳动密集型高清地图和手工编码规则）被证明越来越麻烦，并且建造成本高昂。

仍然存在的技术差距是行为预测和规划，特别是在安全处理罕见“边缘情况”事件的长尾方面，这只能通过更强大的智能来解决。

自2017年以来，我们率先推出了AV2.0，这是一种能够快速、安全地适应全球新驾驶环境的下一代自动驾驶系统。

我们的技术在其他人难以胜任的领域表现出色：通过仅摄像头导航来掌握复杂城市环境中的驾驶，并适应训练期间看不见的城市，就像你我的驾驶方式一样。要取得这样的成就，需要愿意打破传统思维并尝试勇敢的新解决方案。

AV2.0的主要特点：

• 采用端到端深度学习构建
• 不再需要高清地图
• 以安全为设计核心，符合行业安全期望
• 传感器灵活性：兼容各种架构，从仅摄像头到雷达和激光雷达
• 通过数据驱动的泛化可扩展
• 基于机器学习的验证和确认 (V&V) 技术，例如我们的神经模拟器 Ghost Gym
• 在全球范围内经济可行

除了克服技术障碍之外，该行业在将视音频技术转变为全球范围内适销对路的产品方面仍然面临着未解决的挑战。出现了两种策略：

1.从受限环境开始，使用昂贵的传感器和地图基础设施强力解决方案。 这种方法通常被 AV1.0 机器人出租车服务采用，成本超过 1000 亿美元，但没有明确的经济可行性或可观的收入。尽管该技术令人印象深刻，但成本降低、可行的单位经济性和制造挑战仍未解决。

2.创建一个能够在全球范围内运行并逐步提高驾驶自动化水平的可扩展解决方案。