24年4月香港城市大学和香港大学的论文“AGENTSCODRIVER: Large Language Model Empowered Collaborative Driving with Lifelong Learning”。
当前的自动驾驶系统主要基于数据驱动的方法,在可解释性、泛化性和持续学习能力方面存在缺陷。此外,单车自动驾驶系统缺乏与其他车辆的协作和协商能力,这对于自动驾驶系统的安全性和效率至关重要。为了解决这些问题,用大语言模型(LLM)开发了一个框架AGENTSCODRIVER,使多辆车能够进行协同驾驶。AGENTSCODRIVER由五个模块组成:观测模块、推理引擎、认知记忆模块、强化反射模块、通信模块。它可以通过不断地与环境互动来积累知识、教训和经验,从而使自己能够终身学习。此外,通过通信模块,不同的Agent可以在复杂的交通环境中交换信息并实现协商和协作。
如图显示AGENTSCODRIVER,多车、闭环、终身学习的协作驾驶框架。在每一步中,观察模块首先感知周围环境并提取必要的信息。这些信息将被转化为预定义的结构化描述,该描述将被编码为嵌入并用于从记忆模块中调用Top-K相关记忆,之后,描述、相关记忆以及从其他智体接收到的消息 (如果有)将被组合成提示并馈送到推理引擎。推理引擎根据输入进行多轮推理并生成最终决策。最后,该决策将被解码为特定的元动作并在 CAV 上执行以实现安全驾驶。另外,在生成决策后,通信模块将确定是否与其他智体进行通信以及为啥通信。如果通信模块确定与其他智体进行通信,则其智体将与其他智体交换信息。最后,评估器和反思器将分别为智体的决策生成奖励分数和言语强化分析结果。奖励分数和言语强化分析结果将被存储在记忆模块中。
一个人要想成为某个领域的专家,就必须从过去的经验中学习,也就是说,他必须有能力反省自己过去的错误,并分析其背后的原因。
对于一个开车的智体来说,拥有这样的自我反思能力,保持正确的操作和安全的驾驶也是至关重要的。
基于这些观察,提出强化反思,它有两个模块:
评估器和反思器。
评估器,表示为E,就像一个法官,对智体的输出进行评分;
反思器,表示为R,可以反思智体的行为并生成言语强化分析结果,以改进智体的行为。
与传统的强化学习不同,这种强化反思模块由评估器生成奖励。
增强反思模块的整体架构如图所示。
为了做出驾驶决策,需要综合其他模块接收到的信息,然后对其进行推理。
由于从头开始设计推理引擎是一项不可行的任务,因此直接利用强大的LLM作为推理引擎,它在框架中发挥着重要作用。
详细过程如算法总结所示:
另外,为推理引擎设计一个可移植、高效的提示也很重要,这是框架成功的关键。
为了实现这一目标,设计如图所示结构的提示。