大语言模型辅助 AI 规划的最新进展

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-09-11 02:14

正文

24年9月来自Emory大学的论文“Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning”。

规划涉及生成一系列动作以实现特定目标（Russell & Norvig，1995）。如 ALFWorld（Shridhar，2020b）所示，家用机器人执行一系列动作，例如“走到炉子旁”和“从炉子上拿起锅”，以实现“把锅放在餐桌上”的目标。该领域的一个关键工具是规划域定义语言 (PDDL；Ghallab，1998)，它定义了动作发生前的必要条件以及这些动作之后的影响。PDDL 对状态和动作的符号表示也与计算语言学中的形式语义产生共鸣（Banarescu，2013；O’Gorman，2018）。

规划任务的基准测试分为三类：（a）具身环境，其中智体执行家务或在迷宫中导航，算法旨在找到穿过网格的最有效路线（Gupta，2010；Shridhar，2020b；Lehnert，2024）；（b）谜题挑战，例如 24 点游戏、图形着色和汉诺塔，随着问题规模的增加，其复杂性也会增加（Valmeekam，2023；Yao，2023a）；（c）自然语言规划，重点关注最优调度、旅行规划和任务分解，这需要 LLM 的高级推理能力（Xie et al.，2024；Zheng et al.，2024）。需要注意的是，该综述不包括需要大量视觉处理的规划问题，例如自动驾驶（Hu et al.，2023）。

在经典规划中，智体在完全可观察的环境中运行，并被建模为马尔可夫决策过程 (MDP)。

规划域定义语言 (PDDL；Ghallab，1998) 是一种使用 BNF 语法定义规划问题和领域的表示。在 PDDL 中，有三个主要部分：一个领域文件、一个问题文件和规划。领域文件描述了可用于各种问题的操作和谓词，问题文件定义了特定情况下的特定初始条件和目标，规划列出了在这些条件下实现目标所需的操作。

PDDL 的优势在于可以验证 LLM 生成的规划是否真的可以执行，因为它可以识别何时不满足先决条件，例如（卸载 b1 b2）中的先决条件。然而，它的不灵活性以及需要创建域和问题文件带来了重大缺陷。将 PDDL 与 LLM 集成通常涉及将这些文件和规划转换为自然语言，这会使过程变得复杂。

规划对于最佳调度必不可少，因为它可以确保时间和资源得到妥善管理，工具得到按需使用，并在设定的约束条件下实现预期目标。已经开发了数据集来帮助进行行程规划、会议安排、日历管理、拍卖竞标和物流协调。

合作和竞争性游戏是评估LLM在实现特定目标的过程中所具备的战略规划、资源分配、风险管理和多智体行为能力的试验场。

任务分解有利于规划，因为它可以实现高效可靠的执行。将任务分解为子任务有助于创建特定于任务的分类法。因此，如果提供包含可操作步骤的具体规划，通常可以更有效地执行任务。

推理和规划在侧重点上有所不同。推理涉及整合多条信息并进行推理以解决复杂问题。例如，“出生于明尼苏达州的诺贝尔奖获得者会演奏什么乐器？”被视为多步推理问题，因为它涉及推理链以生成答案。相比之下，规划不仅要实现目标，还要以最佳方式实现目标，例如以最低成本或最短路径。规划涉及考虑各种约束并预测由行动导致的未来状态。例如，“预订最便宜的航班”涉及围绕明确目标生成一系列动作（搜索、比较、预订），并受到时间和成本约束。

规划生成器是整个操作的核心，它可以预测一个未来动作、多个未来动作甚至多个未来动作线程。许多近期的研究都使用 LLM 作为规划生成器，利用其多功能性来处理不同领域的场景和问题。然而，一些研究人员认为，目前的 LLM 在规划方面从根本上来说很弱。因此，许多人也提出使用 Fast Downward 这样的算法（Helmert，2006）甚至单独训练的模型来执行规划（Liu et al.，2024）。对规划生成器，尤其是非基于 LLM 规划器的探索还远未结束。例如，最近（Lehnert et al.，2024）提出 Searchformer，这是一种基于 Transformer 的规划算法，它既性能卓越又非常高效。