24年9月来自Emory大学的论文“Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning”。
有效的规划对于任何任务的成功都至关重要,从组织假期到规划自动驾驶汽车的路线,再到制定企业战略。
它涉及设定目标、制定计划和分配资源以实现目标。
LLM 特别适合自动规划,因为它们具有强大的常识推理能力。
它们可以从给定状态推断出实现目标所需的一系列动作,并确定有效的行动方案。
然而,通过直接提示生成的规划往往在执行时失败。
该综述旨在强调使用语言模型进行规划所面临的挑战,重点关注具体环境、最优调度、竞争和合作游戏、任务分解、推理和规划等关键领域。
该工作探索 LLM 如何改变 AI 规划,并为 LM 辅助规划的未来提供了独特的见解。
规划涉及生成一系列动作以实现特定目标(Russell & Norvig,1995)。如 ALFWorld(Shridhar,2020b)所示,家用机器人执行一系列动作,例如“走到炉子旁”和“从炉子上拿起锅”,以实现“把锅放在餐桌上”的目标。该领域的一个关键工具是规划域定义语言 (PDDL;Ghallab,1998),它定义了动作发生前的必要条件以及这些动作之后的影响。PDDL 对状态和动作的符号表示也与计算语言学中的形式语义产生共鸣(Banarescu,2013;O’Gorman,2018)。
规划任务的基准测试分为三类:(a)具身环境,其中智体执行家务或在迷宫中导航,算法旨在找到穿过网格的最有效路线(Gupta,2010;Shridhar,2020b;Lehnert,2024);(b)谜题挑战,例如 24 点游戏、图形着色和汉诺塔,随着问题规模的增加,其复杂性也会增加(Valmeekam,2023;Yao,2023a);(c)自然语言规划,重点关注最优调度、旅行规划和任务分解,这需要 LLM 的高级推理能力(Xie et al.,2024;Zheng et al.,2024)。需要注意的是,该综述不包括需要大量视觉处理的规划问题,例如自动驾驶(Hu et al.,2023)。
在经典规划中,智体在完全可观察的环境中运行,并被建模为马尔可夫决策过程 (MDP)。
规划域定义语言 (PDDL;Ghallab,1998) 是一种使用 BNF 语法定义规划问题和领域的表示。在 PDDL 中,有三个主要部分:一个领域文件、一个问题文件和规划。领域文件描述了可用于各种问题的操作和谓词,问题文件定义了特定情况下的特定初始条件和目标,规划列出了在这些条件下实现目标所需的操作。
PDDL 的优势在于可以验证 LLM 生成的规划是否真的可以执行,因为它可以识别何时不满足先决条件,例如(卸载 b1 b2)中的先决条件。然而,它的不灵活性以及需要创建域和问题文件带来了重大缺陷。将 PDDL 与 LLM 集成通常涉及将这些文件和规划转换为自然语言,这会使过程变得复杂。
用于评估规划系统的具体环境通常采用离散的动作空间,并且仅限于家庭任务。
规划对于最佳调度必不可少,因为它可以确保时间和资源得到妥善管理,工具得到按需使用,并在设定的约束条件下实现预期目标。已经开发了数据集来帮助进行行程规划、会议安排、日历管理、拍卖竞标和物流协调。
合作和竞争性游戏是评估LLM在实现特定目标的过程中所具备的战略规划、资源分配、风险管理和多智体行为能力的试验场。
任务分解有利于规划,因为它可以实现高效可靠的执行。将任务分解为子任务有助于创建特定于任务的分类法。因此,如果提供包含可操作步骤的具体规划,通常可以更有效地执行任务。
推理和规划在侧重点上有所不同。推理涉及整合多条信息并进行推理以解决复杂问题。例如,“出生于明尼苏达州的诺贝尔奖获得者会演奏什么乐器?”被视为多步推理问题,因为它涉及推理链以生成答案。相比之下,规划不仅要实现目标,还要以最佳方式实现目标,例如以最低成本或最短路径。规划涉及考虑各种约束并预测由行动导致的未来状态。例如,“预订最便宜的航班”涉及围绕明确目标生成一系列动作(搜索、比较、预订),并受到时间和成本约束。
LLM 辅助规划算法,其模块化流程包括规划生成器、环境解释器和增强反馈提供器。
目标不是调查所有的规划方法。
相反,专注于理解 LLM 在协助开发 SOTA 规划系统和解决新规划问题方面的作用。
方法大致分为 LLM-as-Planner 和 LLM-as-Facilitator。
第一类明确使用 LLM 继承的推理能力来生成规划,而第二类依赖于其他规划算法来生成规划,LLM 仅用于促进该过程,例如作为世界模型的模拟器,或作为行动规划器从当前状态估计未来的行动,或者使用 LLM 通过世界 API 重新定义行动空间。
规划生成器是整个操作的核心,它可以预测一个未来动作、多个未来动作甚至多个未来动作线程。许多近期的研究都使用 LLM 作为规划生成器,利用其多功能性来处理不同领域的场景和问题。然而,一些研究人员认为,目前的 LLM 在规划方面从根本上来说很弱。因此,许多人也提出使用 Fast Downward 这样的算法(Helmert,2006)甚至单独训练的模型来执行规划(Liu et al.,2024)。对规划生成器,尤其是非基于 LLM 规划器的探索还远未结束。例如,最近(Lehnert et al.,2024)提出 Searchformer,这是一种基于 Transformer 的规划算法,它既性能卓越又非常高效。