基础模型在自动驾驶汽车发展中的未来作用

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-25 00:19

正文

24年5月来自同济大学、吉林大学、福特和上海智能无人系统国家重点实验室的论文“Prospective Role of Foundation Models in Advancing Autonomous Vehicles”。

随着人工智能的发展和深度学习的突破，GPT、Sora 等大规模基础模型（FM）在自然语言处理、计算机视觉等多个领域取得了令人瞩目的成果。FM 在自动驾驶领域的应用前景广阔，例如，它可以为场景理解和推理做出贡献。通过对丰富的语言和视觉数据进行预训练，FM 可以理解和解读驾驶场景中的各种元素，并通过认知推理为驾驶决策和规划提供语言和动作指令。此外，FM 还可以基于对驾驶场景的理解来增强数据，为长尾分布中那些在日常驾驶和数据收集中不太可能遇到的罕见情况提供可行的场景，从而提高自动驾驶系统的准确性和可靠性。另一个证明 FM 应用潜力的模型是世界模型，以 DREAMER 系列为代表，展示了理解物理定律和动力学的能力。世界模型在自监督学习的范式下从海量数据中学习，可以生成未见过但可信的驾驶环境，有助于增强对道路使用者行为的预测和驾驶策略的离线训练。本文总结FM 在自动驾驶中的应用和未来趋势。通过利用 FM 的强大功能，努力解决自动驾驶中长尾分布带来的潜在问题，从而提高整体安全性。

“预训练+微调”在自动驾驶研究中的思路并不是在大模型引入后才出现的，而是研究了很久的。用一个更熟悉的术语来说，就是端到端的自动驾驶。在过去几年中，一些学者已经对预训练主干进行了各种优化，包括Transformer架构和自监督学习方法——预训练主干是指将每个模态输入转换成可用于下游任务（如目标检测、轨迹预测、决策规划等）的特征表示模型。也有很多研究尝试基于Transformer架构开发端到端的框架，并取得了优异的成果。因此，带一个预训练主干的监督端到端自动驾驶解决方案的流程图如图所示。