专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

干货 | 港科大（广州）发布大模型交通信号灯控制框架LLMLight

AI TIME 论道 · 公众号 · · 2024-04-16 16:06

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作者简介

刘浩教授团队，香港科技大学（广州）

论文标题

LLMLight: Large Language Models as Traffic Signal Control Agents

交通信号控制（TSC）是城市交通管理的重要组成部分，旨在优化道路网络效率并减少拥堵。TSC 中的传统方法主要基于交通工程和强化学习 (RL)，通常在不同交通场景的泛化性方面表现出局限性，并且缺乏可解释性。

受此启发，港科大广州刘浩教授团队在2023年12月开源了 LLMLight框架，用于结合大型语言模型 (LLM) 作为 TSC 的决策智能体。该框架首先向智能体提供详细的实时交通状况，并结合先验知识构成提示。利用LLM卓越的泛化能力，LLMLight 采用符合人类直觉的推理和决策过程来实现有效的交通控制。该团队还于2024年2月开源了交通信号灯控制垂类大模型LightGPT。其通过学习的交通流量模式和控制策略，经济且高效地增强了 LLMLight 框架的控制性能。

在九个真实世界和合成数据集进行的广泛实验中， LLMLight 相对于九个基于交通工程和强化学习的基线模型展现出显著有效性、泛化能力和可解释性。LightGPT在此任务上的决策能力显著优于GPT-4。

论文链接：

https://arxiv.org/abs/2312.16044

代码链接:

https://github.com/usail-hkust/LLMTSCS

主页链接:

https://gungnir2099.github.io/LLMLight-Page/

Demo链接:

https://gungnir2099.github.io/LLMTSCS_Demo/

模型权重链接:

https://huggingface.co/USAIL-HKUSTGZ/LLMLight-LightGPT

论文内容

概述

现有的 TSC 研究主要分为两类：基于交通工程 [1, 2] 和强化学习（RL）[3, 4] 的方法。交通工程方法主要侧重于制定有效的启发式算法，根据车道级交通状况属性，动态调整交通信号灯配置。然而，这些方法的设计严重依赖人力及专业领域知识。之后多数研究便基于深度强化学习技术来应对这一任务，并在各种交通场景中都表现出了卓越的性能。然而，基于强化学习的方法也存在明显缺点。首先，由于他们的训练数据仅涵盖有限的交通情况，致使其表现出局限的泛化能力，特别是在转移到更大规模的交通网络或在不常见的路况下（例如，极端高流量的情况）。此外，由于深度神经网络（DNN）的黑盒特性，基于深度强化学习的方法缺乏可解释性，这使得我们很难理解其在某交通状况下控制行为的背后逻辑。

最近出现的大型语言模型 (LLM) 凭借其卓越的零样本学习和泛化能力，它以模仿近似人类的推理过程来解决复杂任务，彻底改变了多个领域。例如在交通控制任务上，PromptGAT [5] 使用 LLM 生成人类知识，以此来帮助 DNN 模型理解 TSC 任务中的长尾场景（例如极端天气），旨在弥合现实世界与模拟之间的差距。然而，虽然现有的研究已经开始探索利用 LLM 作为辅助工具来增强决策，但直接利用LLM作为 TSC 智能体进行类人决策的潜力还尚未探寻。具体而言，其有两个重要挑战：

LLM通常在大规模自然语言语料库上进行预训练，但很少包含非文本的流量数据（例如传感器读数和 GPS 轨迹）。尽管它们具有跨多种任务和领域的泛化能力，但实时交通数据和自然语言之间存在固有差距。第一个挑战在于如何使LLM能够理解实时交通动态并与交通环境做有效交互。
如何为信号灯控制任务选择和开发专有垂类LLM则是另一个重大挑战。首先，通才大模型往往缺乏特定领域的知识，容易出现专业领域的幻觉问题。尽管 GPT-4 等最先进的 LLM 表现出了优异的泛化能力，但它们的闭源性质和高昂成本并不利于投入到实时 TSC 任务及其后续优化中。因此，训练专门为 TSC 任务量身定制的LLM成为了当下更优的选择。

为了应对这些挑战，本文提出了LLMLight框架，其旨在整合大语言模型作为智能体，实现交通信号灯控制。首先本研究将 TSC 视为部分可观察的马尔可夫博弈（Partially Observable Markov Game），其中每个 LLM 智能体管理一个十字路口的交通灯。在每个信号切换时间步上，智能体都会收集目标路口的交通状况，并将其转换为人类可读的文本作为实时观察。此外，作者还结合了信息量丰富的任务描述及一条与控制策略有关的常识知识，以帮助LLM理解交通管理任务。交通路口的实时状态、任务描述与控制动作空间结合，形成了指导智能体决策的知识提示。最后，LLM控制智能体利用思想链 (CoT) 推理来确定下一个时间片的最佳交通信号灯配置。

此外，本研究还构建了一个交通信号灯控制垂类大模型 LightGPT 来增强 LLMLight 框架。一方面，本文提出模仿学习微调（Imitation Fine-tuning），让学生 LLM 学习 GPT-4 产生的高质量决策和推理轨迹。另一方面，本文引入了一个由评论家模型指导的策略优化（Critic-gudied Policy Refinement）过程，使其评估和改进LLM智能体的控制。优化后的 LightGPT 可以产生比 GPT-4 更具成本效益且更有效的控制策略，并在不同流量场景中展现出卓越的泛化能力。

本文主要的贡献如下：

本文率先利用先进的LLM作为控制智能体，赋予其类人的决策能力，使交通信号灯控制任务具有可解释性。这是首个利用LLM作为TSC决策智能体的研究工作。
本文构建了LLMLight框架，通过知识化的提示模版有效指导LLM作出决策，以切换到最优的信号灯配置。
本文构建了LightGPT，一专门针对TSC任务优化的LLM，以经济且有效的方式，显著增强了LLMLight框架的控制策略。
在九个交通流数据集上的实验证明，LLMLight框架具有卓越的有效性、泛化能力和可解释性。此外，本研究也表明了将LLM整合到智能交通系统中的潜在可能性。

方法

3.1 LLMLight 交通控制框架的构建

LLMLight的工作流包括： （1）交通状态观测特征构建 ：收集交通路口的交通状态观测； （2）常识知识增强的智能体提示构建 ：组成一则整合了常识知识的提示，用于指导LLM推理出下一时间片最优的交通信号灯配置； （3）智能体的分析推理及决策 ：LLM使用构建的提示进行分析推理决策过程，随后做出决策。其流程如下图所示：

任务定义：

本研究将交通信号控制定义为一个部分可观察的马尔可夫博弈。基于交叉口实时交通状况的观察、交通场景描述、任务描述、常识知识以及信号灯控制动作空间，以LLM智能体的策略控制目标交通路口的信号灯。LLM的输出为分析推理轨迹与调节路口信号灯的控制动作。其目标为优化长期内交通路口的通行效率。其可形式地表示为：
交通状态观测特征构建：

本研究收集了两种在现实场景中可以简单获取到的观测特征：1）不同车道上排队车的数量；2）不同车道上，还未到达路口车的数量。
常识知识增强的智能体提示构建：
除了观测特征外，本研究还向LLM提供了在处理交通信号控制任务中其他必不可少的信息。包括交通场景描述、任务描述和控制动作空间。这使得LLM能够全面了解任务，从而做出合理的控制决策。此外，本研究还整合了常识知识，以缓解通用型LLM在交通控制领域知识上的局限性。具体来说，这些知识规定了智能体需要优先考虑排队长度较长的车道，而减弱对距离路口较远车辆的注意力。形式化地，本研究将智能体提示表示为。提示符模板的简要示意如下图所示。
智能体的分析推理及决策：
之后，本研究利用上述提示LLM进行零样本（Zero-Shot）推理。其决策过程包含两个关键步骤：分析推理及决策。首先，LLM会对所给任务及常识知识进行理解，并评估各车道的当前交通状况。随后，LLM选择合适的信号灯配置，以允许拥堵最严重的车道通行，从而优化交通流量，确保车辆的顺畅通过。通过这种方式，LLMLight不仅可以制定有效的控制策略，还可以为每个决策提供其背后推理逻辑。这会极大有助于建立更具解释性和透明性的交通控制系统。形式化地，我们将推理和执行行动表示为。LLM主干的决策过程示例如下图所示。

3.2 LightGPT 交通信号灯控制垂类大模型训练

本文还提出了一种训练方法，以专门优化用于交通信号灯控制的LLM，LightGPT。它主要包括三个阶段： (1)推理轨迹的收集和筛选 ：首先，本研究收集GPT-4的思维链推理轨迹进行模仿学习微调，之后筛选出与长期优化目标最相符的轨迹以确保数据质量； (2)模仿学习微调 ：利用GPT-4的决策及其推理轨迹对学生LLM进行训练； (3) 评论家模型指导的策略优化 ：依据评论家模型的反馈进行微调，进一步改善LLM的决策过程。下图展示了其训练流程。

实验

4.1 实验设置

本研究使用了五个真实世界流量数据集，其中包括了来自济南和杭州的数据。此外，还利用了两个在纽约更大的路网下采集的数据，以测试不同方法的在大型路网下的可扩展性。为了测试在长尾情况下的泛化性，他们还合成了两个额外的数据集，模拟了极端拥堵的路况。本研究使用了平均旅行时间（ATT），路口平均队列长度（AQL），以及路口平均等待时间（AWT）作为评价指标。

4.2 总体性能比较

实验结果表明，配备了 LightGPT 的LLMLight 在所有基准测试中始终达到了最先进（SOTA）或与经典方法同等的性能水平。尽管Advanced-CoLight [6]（当前最先进的强化学习方法）在杭州数据集上表现优于 LLMLight（LightGPT），但它的决策需要依赖与邻近路口之间的通信。值得一提的是，LLMLight（LightGPT）仅利用当前路口的观测特征就展现出强有竞争的结果，表明了其决策显著的有效性。

对于由通用型大模型驱动的LLMLight，我们观察到GPT-4表现最为出色，并展示出与最先进强化学习方法相当的效果。同时Llama2-70B和13B分别获得第二和第三名，这表明LLM在交通信号控制任务中也遵循了规模化定律（scaling law）。令人惊讶的是，ChatGPT-3.5的表现最不理想。

4.3 泛化性的比较

4.3.1 可迁移性的比较

本研究首先测试了不同方法的可迁移性。标有“-T”的模型是在不同的道路网络上预训练得到的（例如，我们使用在济南预训练的模型在杭州数据集上评估可迁移性）。反之则在相同的数据集上进行训练和测试。本研究观察到强化学习方法在迁移后性能明显下降，尤其在济南 1 和杭州 1 数据集中表现尤为明显。相反，LLMLight（LightGPT）始终表现出优越的性能，并在所有数据集上展现出优异的可迁移性。

干货 | 港科大（广州）发布大模型交通信号灯控制框架LLMLight

正文

请到「今天看啥」查看全文