快慢双系统！清华&博世最新Chameleon：无需训练即可解决复杂道路拓扑（ICRA'25）

自动驾驶之心 · 公众号 · · 2025-03-12 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

今天自动驾驶之心为大家分享清华大学赵昊老师和赵行老师团队与博世中央研究院RIX在 ICRA 2025中稿的最新的工作— Chameleon ！快慢系统Chameleon无需训练解析复杂道路拓扑。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→ 自动驾驶之心 『在线高精地图』技术交流群

论文作者 | Zongzheng Zhang等

编辑 | 自动驾驶之心

在自动驾驶技术中， 车道拓扑提取 是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素（如交通灯、标志），还要理解它们之间的复杂关系。例如，判断车辆是否可以左转进入某条车道，就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。然而，现有的解决方案存在明显局限性。一方面， 密集视觉提示 方法虽然准确，但计算成本高昂，且在实时处理中效率低下，难以应用于实际场景。另一方面， 神经符号推理 方法虽然效率较高，但在处理复杂场景（如交叉路口）时，常常因为缺乏视觉信息而无法做出准确判断。

为了解决这一难题，清华大学与博世中央研究院RIX联合提出了一个创新的解决方案—— Chameleon 。它通过一种快慢系统交替的神经符号方法，成功平衡了效率与性能，为自动驾驶领域带来了新的突破。

论文链接： https://arxiv.org/pdf/2503.07485

开源地址： https://github.com/XR-Lee/neural-symbolic

引言

在线地图感知是现代自动驾驶中的一个重要课题，它避免了对高成本高精地图的依赖。当前的三维场景理解方法虽然能够有效检测车道和交通元素（如图1所示），但这些实例之间的关系复杂，需要大量标注数据进行监督训练。为此，我们提出了一种基于视觉语言基础模型（VLM）的 少样本（few-shot）方法 ，用于提取车道拓扑。

图1：VLM无法直接解决复杂的三维场景理解任务，例如车道拓扑提取。(a) 一种可能的方法是使用密集视觉提示（如RedCircle），虽然准确但效率低下。(b) 另一种方法是神经符号推理（如NS3D），但这种方法在程序合成时未能有效利用视觉输入，导致在处理复杂边缘情况时效果不佳。(c) 我们提出的Chameleon方法采用快慢交替的设计，其中一个VLM用于合成程序，另一个用于处理边缘情况。

具体而言，我们专注于OpenLane-V2定义的车道拓扑提取任务，即检测车道和交通元素（如交通信号灯和标志），并提取它们之间的关系。这一任务极具挑战性，需要高水平的推理能力，例如判断车辆在交叉路口是否可以驶入某条车道。然而，现有的VLM仍无法直接解决这种复杂的三维场景理解任务。

为解决这一问题，我们结合了两类基于VLM的方法： 密集视觉提示 和 神经符号推理 。密集视觉提示（如RedCircle）通过在图像上放置红色圆圈，将复杂推理任务转化为问答（QA）任务。但这种方法会导致大量的QA查询，计算成本高昂且不适合实时应用（如图1-a）。神经符号推理（如NS3D）虽然效率更高，但在程序合成时未能整合视觉信息，无法有效处理复杂边缘情况（如图1-b）。

因此，我们提出了一种名为“Chameleon”的快慢系统交替的神经符号车道拓扑提取器（如图1-c）。它通过VLM合成程序，根据视觉输入定制推理过程，并动态切换快慢系统以平衡效率和性能。此外，我们还提出了一个链式推理（COT）方法，用于识别和处理需要额外推理的边缘情况。

图二：Chameleon架构概览。输入多视图图像后，视觉模型分别生成交通元素和车道线段的检测结果。提出的快速系统利用一个大型视觉语言模型（VLM），以预定义的视觉-文本少样本和文本提示为输入，生成可执行代码以处理视觉模型的预测结果。提出的慢速系统包括一个视觉问答（VQA）API集和一个具有链式推理能力的视觉语言模型（VLM），其中VQA API集中的视觉提示和文本提示是VLM的输入。随后，拓扑推理结果是代码执行结果和VLM输出的组合。

方法

A. 概述

在车道拓扑提取任务中，我们预测一个密集的邻接矩阵，用于表示车道线段和交通元素之间的关系。具体来说，车道线段之间的关系由矩阵 A ∈R m × m 表示，车道线段与交通元素之间的关系由矩阵 A ∈R m × n 表示，其中 m 和 n 分别是车道线段和交通元素的数量。尽管密集视觉提示可以实现高性能，但其高昂的成本、环境影响和低效的推理速度使其不适用于实时应用。因此，我们采用链式推理（Chain-of-Thought, COT）方法，仅对稀疏的边缘情况进行密集视觉提示，从而提高推理效率。

为了高效处理任务，我们设计了快慢系统架构。快速系统使用符号表示处理基本推理任务，适用于简单场景（如直线车道）；而慢速系统则针对复杂边缘情况（如交叉路口的密集交通和多种交通元素）进行深度推理。这种架构通过动态切换快慢系统，平衡了效率和性能。

B. 提示

为了执行符号推理，我们使用多种提示来生成符号代码。这些提示包括带有few-shot参考的视觉提示（正例或负例）、API描述和专家规则。

API提示 ：API提示定义了生成代码的输入和输出，以及API的输入输出描述，例如用于车道自定位和并行车道搜索的函数等。在我们的实现中，我们还将选定的VQA任务定义为程序合成期间的API。
专家规则提示 ：为了稳定代码生成过程并整合领域专家的先验知识，我们将专家规则添加为程序合成的提示。例如，在TOP lsls任务中，强制执行角度和距离约束。例如，父车道的终点不应与子车道的起点相距过远，以满足驾驶几何约束。在TOP lste任务中，规则规定不允许在交叉路口内存在车道拓扑。
few-shot提示 ：在few-shot场景中，我们选择正例和负例，并将它们渲染为相机的透视图。我们还将这些示例的坐标转换为文本，分别作为视觉提示和文本提示。
VQA提示 ：对于VQA任务，文本提示由关于语义和空间上下文的简单问题组成。我们还使用链式推理（COT）提示。视觉提示基于预测结果从透视图和鸟瞰图中渲染图像。

快慢双系统！清华&博世最新Chameleon：无需训练即可解决复杂道路拓扑（ICRA'25）

正文

引言

方法 (adsbygoogle = window.adsbygoogle || []).push({});

A. 概述

B. 提示

请到「今天看啥」查看全文

方法