AGENTSCODRIVER: 采用终身学习赋能大语言模型的协同驾驶

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-14 11:43

正文

24年4月香港城市大学和香港大学的论文“AGENTSCODRIVER: Large Language Model Empowered Collaborative Driving with Lifelong Learning”。

当前的自动驾驶系统主要基于数据驱动的方法，在可解释性、泛化性和持续学习能力方面存在缺陷。此外，单车自动驾驶系统缺乏与其他车辆的协作和协商能力，这对于自动驾驶系统的安全性和效率至关重要。为了解决这些问题，用大语言模型（LLM）开发了一个框架AGENTSCODRIVER，使多辆车能够进行协同驾驶。AGENTSCODRIVER由五个模块组成：观测模块、推理引擎、认知记忆模块、强化反射模块、通信模块。它可以通过不断地与环境互动来积累知识、教训和经验，从而使自己能够终身学习。此外，通过通信模块，不同的Agent可以在复杂的交通环境中交换信息并实现协商和协作。

如图显示AGENTSCODRIVER，多车、闭环、终身学习的协作驾驶框架。在每一步中，观察模块首先感知周围环境并提取必要的信息。这些信息将被转化为预定义的结构化描述，该描述将被编码为嵌入并用于从记忆模块中调用Top-K相关记忆，之后，描述、相关记忆以及从其他智体接收到的消息（如果有）将被组合成提示并馈送到推理引擎。推理引擎根据输入进行多轮推理并生成最终决策。最后，该决策将被解码为特定的元动作并在 CAV 上执行以实现安全驾驶。另外，在生成决策后，通信模块将确定是否与其他智体进行通信以及为啥通信。如果通信模块确定与其他智体进行通信，则其智体将与其他智体交换信息。最后，评估器和反思器将分别为智体的决策生成奖励分数和言语强化分析结果。奖励分数和言语强化分析结果将被存储在记忆模块中。