专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
科研大匠  ·  上海交大领导班子调整 ·  4 天前  
募格学术  ·  中国性价比最高的211大学,赶超985,撑起 ... ·  4 天前  
51好读  ›  专栏  ›  PaperWeekly

360篇文献!从终生学习视角出发,华南理工团队发布全新Agent综述

PaperWeekly  · 公众号  · 科研  · 2025-01-25 20:05

正文

©PaperWeekly 原创 · 作者 | 李秋科

单位 | 华南理工大学

研究方向 | 自然语言处理


整合三百多篇文献,2025 年首篇 Agent 综述正式推出!华南理工大学机器学习与数据挖掘实验室的马千里教授团队从终生学习的视角出发,汇总了基于大语言模型的智能体的创新研究成果。

论文标题:

Lifelong Learning of Large Language Model based Agents: A Roadmap

论文地址:

https://arxiv.org/abs/2501.07278

论文仓库:

https://github.com/qianlima-lab/awesome-lifelong-llm-Agent

摘要

终生学习,也称为持续学习或增量学习,旨在解决让智能系统在不断变化的环境中持续进化的核心挑战。尽管大语言模型在自然语言处理任务上展现了惊人的能力,但传统方法通常集中在静态文本适应上,难以应对复杂真实场景中对动态感知、推理和执行行为的需求。

▲ 图1.  人工智能系统的终生学习发展历程

这篇综述强调了从静态 LLMs 到动态环境交互式 LLM 智能体的范式转变这些智能体具备多模态感知、集成记忆管理和行动导向的决策能力。

我们系统地分类了这些智能体的核心模块,分别考察了多模态输入整合的感知模块存储和检索不断演化知识的记忆模块以及支持真实交互的行动模块通过这三大支柱的协同作用,智能体能够实现持续适应、减轻灾难性遗忘并提升长期能力。

除了对最新技术、架构和策略进行结构化概述外,我们还深入探讨了新兴趋势、评估指标及应用场景,涵盖了通用和专用领域。本文为研究人员和实践者设计和部署能够模拟人类学习模式、持续优化理解并优雅适应新挑战的终生学习 LLM 智能体提供了发展路线图。

▲ 图2. 基于 LLM 的智能体在现实世界中的终生学习示例



引言

终生学习也称为持续学习或增量学习,指的是系统在不遗忘先前学习的信息的情况下,获取、整合和保留知识的能力,使系统能够随着时间的推移不断适应和改进。

终生学习使智能系统能够随时间及环境不断适应和改进,因此成为了智能系统发展中的一个焦点。

▲ 图3. 有关终生学习和llm智能体的刊物的快速增加

尽管终生学习具有极大的潜力,其在当前 ai 发展的应用上仍具有一定困难。目前的 AI 系统在终生学习中面临两个主要挑战:灾难性遗忘可塑性丧失。一方面,当系统在学习新任务时遗忘了先前所学信息,就会发生灾难性遗忘,在环境变化时这一问题尤为突出。另一方面,可塑性丧失指的是系统无法适应新任务或新环境。

这两个挑战构成了稳定性-可塑性困境,即:静态系统可避免遗忘但缺乏适应能力,而专注于动态适应的系统则面临遗忘过往知识的风险。克服这一困境是推动人工智能发展的关键,也是实现通用人工智能的基础挑战。

因此,构建能够实现终生学习的基于大语言模型的智能体十分重要传统大语言模型训练后是静态的,知识固定,难整合新信息,限制了其在动态现实场景中的应用。而 LLM Agent 是能与环境交互的自主实体,可以感知多模态数据、存储信息并采取行动影响或响应环境。

▲ 图4. 传统LLM和Lifelong Learning LLM Agents的比较
通过将终生学习融入大语言模型智能体,我们在动态的现实世界应用中释放了它们的全部潜力。这些智能体可以不断进化、获取新知识并保留关键信息,使它们更具适应性和通用性。这种终生学习过程对于不断出现新挑战的环境至关重要,例如自主机器人、交互式助手和自适应决策支持系统。

▲ 图5. Lifelong LLM Agent通过不断适应新任务提升能力

总体而言,本综述的贡献可总结如下:

  1. 全面概述了对 LLM Agent 中终生学习的基础概念和架构。
  2. 深入研究了智能体包括感知、记忆和行动在内的关键组成部分,这些部分使 LLM Agent 能够实现自适应行为。
  3. 调研了能够展示终生学习在 LLM 中的实际应用和益处的案例。
  4. 回顾了用于评估 LLM Agent 中终生学习的评估指标和基准。
  5. 确定了这个快速发展领域中的关键挑战和未来研究方向。



LifeLong LLM Agent 的构建

▲ 图6. 基于终生学习的大型语言模型智能体的整体架构,包括三个关键模块:感知、记忆和行动。

2.1 感知

人类在面对新任务时,依赖于不断感知外界的新信息来提升解决问题的能力。这一过程不仅涉及对环境的观察和理解,还包括从经验中学习,以调整和优化自身的行为策略。类似地,基于大语言模型的智能体在终生学习的过程中也需要通过感知模块不断获取和整合来自不同场景和模态的信息,以适应不断变化的任务和环境。

▲ 图7. 感知架构图
这篇综述中,我们将 LLM Agent 的感知模块划分为了单模态感知和多模态感知

2.1.1 单模态感知

LLM Agent 的单模态感知主要还是用于接收文本信息。在终生学习的过程中,Agent 接受的文本信息源可能来自于不同的结构和场景。

在自然文本的环境中,现阶段的 LLM 系统已经具备了通过文本输入和输出与人类沟通的基本能力。在此基础上,Agent 需要从一些从非自然文本的环境中获取文本信息以更好模拟现实世界中的信息感知。

例如在网页、图表等来源的环境中,一些方法通过提取遵循标准化格式的结构化文本,以将复杂的信息转化为 LLM Agent 可以直接访问的信息,例如通过对 HTML 文档的操作和屏幕截图识别等。

而在更为复杂的游戏环境中,LLM Agent 可以通过文本介质来感知系统所处的游戏环境,如角色、时间、地点、事件、情感等,并根据这些游戏元素的反馈使用文本指令来进行相应的操作。

总之,智能体应该能在各种复杂的环境中具有良好的文本感知能力和适应能力。而随着相关研究变多,探索 Agent 如何感知在更为广阔的环境中的文本输入变得更有前景。

2.1.2 多模态感知

由于现实世界是由多种数据模态构成,单模态感知方法无法充分满足现实世界的复杂性。随着网络平台上图像、文本和视频内容的爆炸性增长,开发能够持续感知多模态信息的 LLM Agent 变得至关重要。

这些智能体需有效整合来自不同模态的信息,同时保持对先前模态知识的积累与适应,从而更好地模拟人类在多模态环境中的持续学习过程,提升其整体感知和认知能力。

▲ 图8. 基于LLM的Agent在多模态感知上的终生学习方法

我们将 Agent 对多模态信息感知的终生学习处理方法分为了新知识感知旧知识感知

新知识感知中,Agent 需要关注不同模态之间的交互以及对新模态的感知与处理,以更好地应对现实世界中快速变化迭代的信息形式。很多研究关注当 Agent 遇到包含新模态的任务时,如何在保持对旧模态任务的稳定性下,提升解决新任务能力。

我们根据 Agent 遇到新模态任务的不同情况的处理进行了分类。

模态完全学习(Modality-Complete Learning)假设所有数据在训练阶段和推理阶段都具有相同的模态。在这种场景下,Agent 的多模态感知终生学习重点关注如何接受来自多种模态的数据以及在新任务中实现跨模态的知识迁移。

  • 一些研究探索了模态无关模型,旨在使模型能够接受多种模态信息作为输入。
  • 还有一些研究关注跨模态知识迁移,旨在学习如何运用已获得模态信息的知识以迁移到另一个模态中,以提高模型在面对新模态任务的性能。

模态不完全学习(Modality-Incomplete Learning)涉及 Agent 在终生学习的过程中遇到部分模态信息缺失或不完整的情况下,如何动态适应以有效学习和推断的问题。

  • 例如,通过运用混合专家(MoE)模块,PathWeave【46】通过引入了一种新颖的“适配器中的适配器”(AnA)框架,使得单模态和跨模态适配器无缝集成,能够增量式地学习新增模态知识。
  • 还有一些研究利用可用模态信息来预测缺失模态的表示,以及通过学习模态信息的共享和特定特征来更好地表示输入数据,以在处理模态缺失时表现出更好的鲁棒性。

▲ 图9.  Agent在终生学习过程中增量式的感知新模态信息

旧知识感知中,我们关注 Agent 在接受新的信息后保持对已有模态知识的稳定性。针对灾难性遗忘问题,我们呈现了具体以下几种方法:

基于正则的方法旨在通过引入正则化项来限制新任务学习过程中模型参数的变化,从而减轻灾难性遗忘现象。根据约束施加的方法,还可以更细化为权重正则化和函数正则化。

  • 权重正则化通过直接对模型的权重施加惩罚项,限制其在学习新任务时的变化。
  • 函数正则化侧重于对模型中间或最终输出的约束,确保在学习新任务时,模型能够保留对旧任务的输出特征。这种方法常常与知识蒸馏策略相结合。

基于重放的方法是一种通过保留和重新使用先前学习经验的方式,来缓解灾难性遗忘的问题。在多模态持续感知学习中,根据重放的具体内容,可以将方法分为经验重放和生成重放。

  • 由于存储空间的限制,经验重放方法的重点在于如何利用有限的内存空间存储更具代表性的旧训练样本。
  • 生成重放则需要训练一个额外的生成模型来重放生成的数据,这种方法可以有效减小存储需求。
其他方法现有研究还有一些基于投影以及架构的方法。
  • 基于投影的方法将不同模态的数据(如图像、文本和音频)映射到一个统一的特征空间,以便于模型接受信息。
  • 基于架构的方法是一种通过调整模型的结构来支持持续学习的策略。这种方法通过将模型分为任务共享和任务特定组件,确保任务间的相对隔离,以减少学习新任务后对旧知识的影响。

2.2 记忆

在 LLM Agent 的终生学习过程中,记忆模块能够使智能体存储、保留和回忆信息。这一能力不仅有助于智能体从过去的经验中学习,还能改善决策过程。记忆是智能体形成连贯长期行为、做出知情决策和与其他智能体或人类进行有意义互动的基础。

▲ 图10. 记忆架构图

因此,记忆模块支持智能体通过经验学习、避免灾难性遗忘,并促进协作行为。我们将记忆模块分为四个关键类型:工作记忆、情节记忆、语义记忆和参数记忆这四种类型协同运作,构成一个全面的记忆系统。

2.2.1 工作记忆

工作记忆是智能体的短期记忆,负责处理即时上下文信息,例如提示词、用户输入和相关的工作区信息。它使智能体能够实时处理当前上下文,从而为短期推理和决策提供基础。我们从五个主要角度讨论工作记忆:提示词压缩、长上下文理解、角色扮演、自我纠正和提示优化。

▲ 图11. 工作记忆的组成

提示词压缩

智能体可以通过压缩用户输入的提示词来有效地增加上下文内容的容量。这一过程提高了信息处理效率,并帮助智能体避免对历史信息的灾难性遗忘,从而支持终生学习。

提示压缩技术主要分为两类:

  1. 软压缩通过优化少量的软提示令牌(token)来压缩原始提示,保留关键信息和抽象情感。这种方法有助于生成摘要向量,使智能体能够更高效地处理信息,同时支持缓存和重用较短的摘要令牌,以提升计算效率。
  2. 硬压缩直接过滤冗余或非必要的提示令牌,提供更简洁的提示表示。硬压缩方法通过评估各个词汇单元的重要性,仅保留信息量较高的部分,从而优化智能体的输入。
长上下文理解

在工作记忆中,处理长文本是常见的需求,这不仅提升了智能体对文本的理解能力,还促进了其在终生学习过程中的适应性。长文本理解的主要方法包括:

  1. 上下文选择将长文本分割成多个段落,依据重要性标准选择特定段落。这种方法帮助智能体提取关键内容,从而提高信息处理的效率。
  2. 上下文聚合通过整合来自不同区域的特征信息,增强模型对局部和全局上下文的理解。此方法使模型能够更全面地把握文本的整体意义。这两种方法共同作用,使智能体能够有效处理长文本输入,提升信息提取和理解的能力,同时支持其在不断变化的环境中进行持续学习。

角色扮演

在工作记忆中,角色扮演是一种增强智能体与用户互动的有效机制,有助于实现更加个性化和多维的沟通。角色扮演的主要形式和特点包括:

▲ 图12. 单智能体和多智能体的区别

  1. 单智能体角色扮演:通过构建一个能够模拟特定角色的智能体,定义角色的性格特征和背景故事,收集相关数据,使用大型语言模型生成角色语言和行为。这种方法使智能体能够在与用户的互动中真实地表现角色的特征。
  2. 多智能体协作角色扮演:多个智能体共同工作,用户为每个智能体分配角色和任务,以实现复杂的互动。通过协作,智能体能够完成更具挑战性的任务,提升整体系统的效率。例如,MetaGPT 利用元编程方法将任务分解为子任务,并通过不同智能体执行,增强了结果的验证和错误的最小化。

自我纠正

用户通过特定提示指示智能体回顾和评估其先前的响应,以识别和纠正潜在错误,从而启用智能体的自我纠正功能。这一过程通过要求智能体不仅识别错误,还重新思考并提供修正答案,来优化模型的输出,使智能体能够从提示中持续学习和改进,实现终生学习。自我纠正的主要策略包括:
  1. 依赖其他模型的反馈N-CRITICS 利用多个不同的通用大型语言模型作为评论者,评估主模型生成的输出并提供反馈。该方法采用迭代反馈机制,无需监督训练,初始输出由评论者集合评估,所收集的批评意见用于指导主模型迭代修正输出,直到满足特定的停止条件。
  2. 评估自身信心水平Li 等人提出了 If-or-Else 提示框架,以指导大型语言模型评估其自身信心并促进内在自我纠正。
  3. 借助外部工具CRITIC 通过与外部工具的互动来引导大型语言模型进行自我纠正。该框架的核心思想是模拟人类使用外部工具(例如,事实检查的搜索引擎或调试的代码解释器)来验证和修正初始内容的行为。这些策略共同支持智能体的自我纠正能力,使其能够在反馈中不断学习和提升,增强其在多变环境中的适应性。

提示优化

在智能体的工作记忆中,用户输入的提示词可能过于宽泛或模糊,导致误解。为提高响应质量,引入了提示优化技术,以细化用户指令,帮助智能体更准确地理解用户意图。在这一过程中,智能体通过互动不断学习,实现终生学习,增强适应性。

主要研究集中在以下算法上:

  1. 进化算法EvoPrompt 利用进化算法生成新的提示候选,通过迭代优化提示种群,基于开发集表现选择更佳提示。

  2. 蒙特卡洛树搜索算法PromptAgent 将提示优化视为策略规划,模拟人类试错过程,迭代优化中间提示,通过反思模型错误生成反馈。这些方法共同提升了智能体的提示理解和响应能力。

2.2.2 情节记忆

情节记忆用于存储长期经验和事件,例如用户交互、先前任务的结果或多轮对话。情节记忆帮助智能体回忆过去的经历,以改善未来的行动,同时保持长期行为和学习的一致性。我们从三个主要角度讨论情节记忆:数据重放与特征重放持续强化学习自我经验
数据重放与特征重放

在终生学习中,模型需要在学习新任务时避免遗忘旧任务的知识。为此,重放旧任务样本是有效的策略,主要通过两种技术实现:

1. 经验重放保留旧任务的一部分样本,并在新任务训练中重放,以帮助模型维持旧任务的记忆。关键挑战在于如何有效选择和利用这些样本。

2. 生成重放通过训练生成模型生成旧任务数据,减少对实际存储旧样本的需求,从而保持旧任务的知识一致性。此外,特征重放关注保留特征分布,解决因特征提取器更新导致的表示转移问题,减轻灾难性遗忘的风险。知识蒸馏则通过转移旧任务与新任务之间的知识,增强模型的泛化能力。

总之,终生学习面临的主要挑战包括选择旧样本的策略、保持知识一致性以及处理表示转移问题。合理运用这些技术,模型能更有效地适应新任务。

持续强化学习

持续强化学习强调在智能体学习新任务时,如何有效利用过去的经验,避免灾难性遗忘。在持续强化学习中,数据缓冲区中收集的经验代表了情景记忆的重要体现。通过利用经验重放即通过反复呈现存储在重放缓冲区中的经验来增强训练的稳定性和提高学习效率。

这些经验由四元组组成,包括当前状态、采取的行动、下一个状态和奖励。通过在训练过程中从缓冲区中抽样,经验重放减轻了灾难性遗忘的问题,实现了终生学习的目标。

▲ 图13. 持续强化学习中的经验重放

自我经验

情景记忆能够存储和回顾经历,包括成功与否的结果以及外部环境对其行为的反馈。这些记忆形成了自我经验库,智能体可以利用这些经验来改进决策和行动计划,从而实现终生学习。这种能力使智能体在复杂和变化的环境中更敏捷、更有效。

在构建大型语言模型(LLM)智能体人的自我经验时,数据存储类型被细致分类为四类:三元组、数据库、文档和对话。

  1. 三元组:RET-LLM 提出了一种通用的读写记忆模块,以三元组形式存储知识,支持模糊搜索。
  2. 数据库:ChatDB 使用数据库作为符号记忆模块,支持历史信息的复杂推理和查询。
  3. 文档:DelTA 旨在处理整个文档的翻译一致性,采用多级记忆结构,存储长短期记忆和上下文信息。
  4. 对话:对话是情景记忆中的重要信息存储形式。MemoChat 允许智能体从长对话中动态检索和利用过去的对话信息,保持对话一致性。RAISE 增强了对话智能体的能力,引入了类似短期记忆的临时记忆板,以处理近期交互的信息。通过这些机制,智能体人不仅能够引用历史信息,还能从中学习,不断优化反应模式,提高对话技能,实现更自然和精准的对话结果。

2.2.3 语义记忆

语义记忆作为外部知识存储,帮助智能体获取和更新世界知识。通过持续的知识图谱学习和文档学习等机制,语义记忆促进新知识融入智能体的内部框架。借助知识图谱或动态文档库等外部数据库,语义记忆确保智能体能够跟上不断变化的信息,从而提高回答查询的能力并增强长期学习效果。

在语义记忆中,我们主要关注在持续知识图谱和动态文档库两个外部存储工具中的终生学习。
连续知识图谱

知识图谱嵌入(KGE)是一种将知识图谱中的实体和关系映射到低维向量空间的技术,广泛应用于下游任务。

然而,随着知识的快速增长,传统的静态 KGE 方法通常需要在新知识出现时保留整个知识图谱,这导致了显著的训练成本。为了解决这一挑战,出现了持续知识图谱嵌入(CKGE)任务。CKGE 利用增量学习优化知识图谱的更新过程,旨在高效学习新知识,同时保留现有知识。

目前的 CKGE 方法可以大致分为三种主要类型:基于正则化的方法、基于重放的方法以及基于架构的方法。
动态文档库

LLM Agent 可以利用信息检索将用户查询映射到相关文档。传统的研究主要集中在从静态文档库中进行生成式检索。然而,实际中可供检索的文档不断更新,尤其是在新闻、科学文献等快速变化的信息领域。这种文档的快速演变给检索系统带来了重大挑战。

一些研究通过 DSI 方法增强动态文档库的文档更新能力。例如:

  1. DSI++:引入了基于 Transformer 的记忆机制,设计动态更新策略,使模型在新文档到达时优化其内部表示,实现高效的检索适应。
  2. IncDSI:采用模块化索引更新策略,利用之前构建的索引数据支持快速插入新文档,显著降低计算资源需求,确保实时检索效率。
  3. PromptDSI:采用基于提示的无复习增量学习方法,利用提示机制指导模型在更新过程中保留旧文档的记忆,避免需要复习样本。而在一些特定领域的任务上,例如 RAG 应用中,知识文档的增量更新对于确保领域特定知识的及时同步至关重要。目前的研究主要采用两种增量更新策略:文档级更新和块级更新。文档级更新涉及对新添加或更新文档的全面解析和向量化;
块级更新则集中于识别文档中新增、修改、删除或未变更的知识块,利用“指纹”技术进行比较,确保只处理需要更新的内容。
▲ 图14. RAG应用中知识更新策略
框架如 LangChain 和 LlamaIndex 支持增量知识更新,提供文档存储和管理策略。增量知识更新对于企业级 RAG 应用至关重要,使其能够快速适应知识变化,同时降低运营成本。
2.2.4 参数记忆
与过去事件的显性记忆不同,参数记忆体现在模型的内部参数中。这些参数的变化(例如通过微调或训练更新)反映了长期知识,并为智能体的知识库贡献力量。这种记忆类型使智能体能够在任务之间保留知识,而无需存储具体事件的详细信息。我们从以下三个角度展开分析:持续指令微调持续知识编辑以及持续对齐

▲ 图15. 参数记忆方法

持续指令微调
持续指令微调是指智能体通过不断利用指令数据集来更新其参数记忆,调整模型的内部参数。这一调整过程并非一次性修改,而是一个持续优化的过程,使智能体能够随着新指令的接收不断优化其知识库。

通过这种方式,智能体不仅能够保留和利用过去的经验,还能无缝整合新学习的信息,避免因新学习导致的旧知识丢失(即灾难性遗忘)。这种持续学习和记忆更新的机制是智能体实现终生学习的关键,主要分为两类:特定能力通用能力

在特定能力方面,模型通过微调领域特定的数据集,增强了在专业工具使用和数学问题解决等领域的能力。研究表明,工具使用框架能够有效支持数据构建、模型训练和评估等功能,并通过构建指令微调数据集,模型能够处理多种工具指令并泛化到未见的 API。此外,语言模型通过识别和调用 API,利用自监督学习优化其预测能力,从而掌握工具的操作及使用时机。

此外,针对特定智能体任务的研究构建了高质量的交互数据集,并结合通用指令数据提升模型在特定任务上的表现。统一的可学习语言智能体框架适用于多种复杂的交互任务,并通过多领域的微调注释训练,展现出与主流模型相当或更优的性能。

而在通用能力方面,模型通过广泛的通用数据集进行微调,以提高对人类用户输入的理解和生成更满意的响应。指令微调显著增强了语言模型在代码、常识推理、世界知识、阅读理解和数学等领域的表现,通常通过多个基准测试进行评估,如 HumanEval、HellaSwag、TriviaQA、BoolQ 和 GSM8K 等。

通过持续的指令微调,大型语言模型不仅保持广泛的知识基础,还基于最新数据和指令不断演变,实现终生学习与改进。这种自我进化的概念体现了一般能力的增强,涉及多个迭代学习阶段,帮助智能体适应新任务和环境。
持续知识编辑

在持续知识编辑过程中,智能体利用更新的数据集(新知识)修正先前模型中的错误或过时信息。通过微调内部参数,智能体能够融合新信息并保持已有知识,防止灾难性遗忘,实现终生学习,以适应不断变化的环境。

持续知识编辑采用知识三元组(头实体、关系、尾实体)更新模型理解,确保在知识过时或遇到新信息时调整知识库。主要方法包括外部记忆、全局优化和局部修改。

  1. 外部记忆通过外部结构存储新知识而不修改大型语言模型(LLM)的权重。例如,WISE 设计了双参数记忆方案,主记忆存储预训练知识,副记忆存储编辑后的知识。GRACE 则在特定层添加适配器,以适应新变化。
  2. 全局优化更新所有参数以纳入新知识,保留原始知识。例如,PPA 利用低秩适应(LoRA)进行约束优化,ELDER 动态分配 LoRA 组件应对持续编辑任务。
  3. 局部修改定位并更新 LLM 中特定知识相关的参数,以解决知识编辑中的毒性累积问题。WilKE 评估层间模式匹配,选择适合编辑的层。PRUNE 则通过管理矩阵的条件数,降低编辑对模型能力的影响。

持续对齐

智能体通过吸收人类反馈微调内部参数,实现持续对齐,增强对新指令的响应能力,避免灾难性遗忘。这种动态调整使智能体在每次交互中学习和适应,支持终生学习。

传统对齐为单步过程,依赖固定的静态示例,缺乏适应新情况的能力。多步对齐要求模型在不遗忘已学任务的情况下适应新任务,体现持续对齐的挑战。

持续对齐的数据集不断变化,跨越多个任务或领域。为解决 RLHF 模型重训练的高成本,COPR 计算最优策略分布序列,并依据历史分布微调当前策略,减少灾难性遗忘。

COPR 提供适应性,无需人类反馈。CPPO 通过加权策略和样本分类,持续对齐语言模型与动态人类偏好。
2.3 行动
行动模块使智能体能够与环境互动、做出决策并执行行为,从而影响其学习过程。在终生学习框架中,行动对于闭合反馈循环至关重要:行动影响环境,环境则提供反馈,用于优化未来的行动。

▲ 图16. 行动架构图
我们将行动分为三种主要类型:基础行动检索行动和推理行动
2.3.1 基础行动
对于大语言模型(LLM)智能体,基础行动涉及通过文本描述感知环境,并生成文本以确定适当的下一步行动。我们重点探索不同环境背景下的解决方案。
挑战
  • 输入基础行动

    在输入基础行动中,LLM 在预训练语料库中遇到的文本格式与环境描述使用的格式存在显著差异。预训练语料库主要由结构良好的段落构成,而环境描述往往以简短句子、短语或结构化文本格式(如 JSON 字符串或 HTML 标签)呈现。

    因此,LLM 必须从熟悉的预训练数据输入格式适应到智能体环境中多样且专业的格式。在快速变化的环境中,智能体需要持续适应更新的描述,以更好地理解环境。

  • 输出基础行动

    在输出基础行动中,LLM 需要生成的内容类型存在显著差异。在预训练过程中,LLM 主要训练用于简单的文本补全,而在智能体环境中,必须生成遵循特定模式的文本,表示动作或环境特定元素。LLM 必须学习通过生成符合环境要求的输出,来执行复杂的动作,而不仅仅是以自由形式自然语言描述动作或意图。

    此外,在复杂环境中,输出基础行动的要求可能会根据智能体的先前行动而变化,因此需要持续适应以符合环境不断变化的需求。
不同环境下的解决方案

具有终生学习能力的大型语言模型(LLM)智能体不仅可以根据特定环境调整其基础行动,还能通过与环境的互动不断演变。然而,不同环境的多样性带来了独特的挑战,促使研究者们开发出多种解决方案。为了清晰全面地概述这些解决方案,研究将常见环境分为三类:工具环境、网络环境和游戏环境。

  1. 工具环境:工具是智能体可以交互的外部功能或资源,如计算器、日历、搜索引擎和 API。LLM 在工具环境中需要理解工具的功能并根据用户意图按正确顺序调用工具。研究者们采用简化工具文档的方式来帮助 LLM 理解工具,并通过工具调用轨迹进行微调或上下文学习,以改善工具调用能力。此外,LLM 需要适应工具环境以生成特定格式的输出,相关研究通过微调或少量学习来实现这一点。
  2. 网络环境:在网络环境中,基于 LLM 的智能体需要根据用户意图与网页交互。LLM 主要通过 HTML DOM 树或可访问性树来感知网页,这种格式复杂且不直观。为了解决这个问题,研究者们通过简化网页内容和将先前的轨迹或经验纳入提示中来提高输入基础行动的准确性。
  3. 游戏环境:游戏环境是三种环境中最复杂的。LLM 智能体通常在虚拟环境中操作,根据不同游戏环境提供的 API,其输入和输出基础行动的具体要求各不相同。一些研究使用专门的提示帮助 LLM 深入理解环境,其他研究则将环境视为图像来直接感知复杂环境。在输出基础行动方面,大多数工作通过生成可执行程序与环境互动,以控制智能体的行为。从终生学习的角度看,研究者们还强调了增强智能体行为长期一致性和整体能力的重要性。

2.3.2 检索行动

LLM Agent 在生成有效的基本行动和推理行动时,需要依赖外部信息。对于基本行动,LLM 的输出必须与环境模式匹配,仅通过微调模型以适应环境约束是不可行的,因为这既资源消耗大,又无法应对动态变化的行动空间,同时在提示中包含所有可能的行动描述也会导致上下文长度过长。

在推理行动中,全面的外部知识(语义记忆)和准确的历史轨迹(情景记忆)是做出正确决策的关键。然而,随着智能体活动的增加,行动和观察历史的长度可能超出 LLM 的处理能力,这凸显了检索行动的重要性。通过检索,LLM 智能体可以有效管理不断增长的历史数据,提高长期一致性,并在动态环境中提升表现。

我们的研究将智能体的检索分为语义记忆和情景记忆两个部分。LLM 智能体可以在试验开始时或生成每个行动之前进行检索,这种做法在现有研究中较为常见。

▲ 图17. 增强大型语言模型智能体检索行为的研究总结及分类

从语义记忆中检索

预训练的大型语言模型作为智能体的“脑”常常不足,主要由于两个关键限制:缺乏背景知识和缺乏示例。这两个限制可以通过从语义记忆中检索信息来解决。

  • 缺乏背景知识

    背景知识的缺乏表现为 LLM 无法从所有可能的行动中选择正确的行动,或生成无法被环境理解的行动。

    为了解决这个问题,GITM 通过从 Minecraft Wiki 中检索相关文本,为 LLM 提供 Minecraft 世界的知识,使其能够正确执行行动。

    SwiftSage 和 ToolLLM 利用 SentenceBERT 从数据库中检索可能的行动,帮助 LLM 缩小行动空间,从而选择适当的行动。当行动参数有限时,SentenceBERT 还可将 LLM 生成但环境无法理解的参数转换为有效参数。

  • 缺乏示例

    缺乏示例会降低智能体在基础行动和规划行动中的质量。

    示例被证明对 LLM 的表现至关重要。然而,在提示中包含无关或过时的示例会显著影响 LLM 智能体的性能。为了解决这个问题,Re-Prompting 和 STE 使用 SentenceBERT 从示例集中选择最相似的示例。
从情景记忆中检索

虽然从语义记忆中检索可以通过提供额外的背景知识和示例来提高智能体的能力,但它无法解决 LLM 在利用过去经验和长期一致性方面的缺乏。这两个限制可以通过从情景记忆中检索来克服。

  • 利用过去经验的能力不足

    克服利用过去经验的不足是终生 LLM 智能体的一大特征。当前研究将此方法分为两类:第一类是在智能体成功完成任务后存储其轨迹,随后在新任务中检索相似轨迹以提升推理质量;第二类是将任务解决步骤表示为可执行程序,智能体可以重用或组合这些程序来应对新任务,从而提升其基础能力。

  • 长期一致性不足

    LLM 的有限上下文长度导致长期一致性不足,无法整合所有观察和行动历史。MemoryBank 通过检索过去对话摘要,帮助保持与聊天历史的一致性,提升长期交互中的表现。

2.3.3 推理行动

推理行动是 LLM 智能体的一类关键行为,尽管 LLM 在预训练后能够进行基本的推理,但其能力不足以应对复杂环境中的推理任务。这主要由于环境复杂性和 LLM 自身推理能力的局限性,例如难以识别先前推理步骤中的错误。
为了解决这些挑战,研究者们通过设计精确的提示和新颖的框架来提升推理质量,许多研究还从终生学习的角度出发,使 LLM 能够基于先前的推理结果逐步改进推理能力。根据这一点,我们将推理行动分为情节内推理行动和情节间推理行动,并在表7中总结了这一分类结果。

▲ 图18. 关于增强大型语言模型智能体推理行为的研究总结

情节内推理行动

情节内推理动作是指利用同一情节中的经验的推理动作。基于这些研究是否刺激了 LLM 在同一试验中的内在推理能力,或者逐步增强其在不同试验中的推理能力,我们进一步将文章分为两组。

  • 单次试验

    几乎所有研究鼓励 LLM 在单次试验中采用 ReAct 风格推理,基于环境反馈不断完善推理过程。许多研究将推理分解为步骤,使用不同的 LLM 处理。

    例如,α-UMi 微调两个 LLM,分别负责规划和总结,而 API-Bank 使用五个 LLM 生成高质量工具学习数据。这些研究提升了智能体的推理质量,并通过引入环境特定策略增强了 LLM 在复杂环境中的推理能力,如 LASER 和 SteP 的应用。

  • 跨试验

    许多研究基于 ReAct,通过模拟人类推理过程提升智能体在不同试验中的推理能力。Reflexion 使 LLM 通过回顾失败的试验进行自我反思,从而改善推理并提高未来试验的准确性。LLM 智能体在每次新试验开始时反思过去轨迹,必要时重复此过程,直至成功实现目标。
情节间推理行动

跨情节推理行动利用来自不同情节的经验进行推理。这些经验随着 LLM 智能体与环境的互动而逐渐积累,包括成功的推理轨迹、可执行代码或文本摘要,通常存储在额外数据库中。遇到新任务时,LLM 智能体检索相关经验并将其加入工作记忆,以指导推理过程。

AMOR 通过先前任务的反馈微调模型,提高特定环境下的推理质量。同时,一些研究利用课程学习安排任务,从简单到困难,帮助LLM智能体在探索复杂环境时更好地利用过去的经验,使其逐步掌握推理技巧。


应用
3.1 应用
在数字化时代,LLM Agent 在日常生活和专业领域中发挥着越来越重要的作用。随着终生学习概念的深入发展,这些智能体能够不断适应和优化其功能,以满足用户不断变化的需求。

▲ 图19. 基于 LLM 的 Agent 终生学习的应用
LLM Agent 的终生学习应用可以大致分为两类:日常应用和领域特定应用。

3.1.1 日常应用

在人类日常生活中,LLM Agent 通过持续学习和适应,极大地提升了人们的工作、生活和娱乐体验。这些智能体不仅能够理解用户的需求,还能实时调整其功能,以更好地服务于用户的日常活动。具体而言,日常应用可以细分为以下几个重要场景:
工作场景
在工作场景中,Agent 发挥着多种关键功能,极大地提升了工作和学习的效率。例如,在网页应用中,Agent 通过终生学习不断优化搜索算法和内容推荐,帮助用户更高效地找到相关信息和资源。
知识管理方面,LLM Agent 能有效整理和检索信息,帮助用户快速获取所需的知识资源,促进信息共享和决策支持。
生活场景

在生活场景中, lifelong Agent 能够改善日常生活的便利性和舒适度。在聊天方面,LLM Agent 结合终生学习的方法例如角色扮演、长上下文文本理解,能够与用户持续互动,逐步理解用户的个性和偏好,从而提供更自然和富有情感的对话体验。

作为个性化助理, Agent 也能帮助用户根据环境完成日常家务任务,例如自动调节空调、灯光、清洁等,从而提升用户生活体验。
娱乐场景

在娱乐场景中,Agent 也发挥着作用。例如在游戏中,Minecraft 作为一款类似于开放世界的模拟生存游戏,成为了 Agent 在游戏中测试的首要选择。

例如,Voyager 作为 Minecraft 中的第一款 lifelong Agent,能够在没有人为干预下,通过反馈机制,实现自主探索未知世界。

JARVIS-1 通过自我反思和自我解释提高了对环境的理解,将以前的计划纳入其提示中。

另外,娱乐媒体行业也正进行着一场智能变革。通过不断接受用户最新信息,为用户推荐相关高质量的电影、音乐。
3.1.2 特定领域应用

在领域特定应用中,终生智能体展现出卓越的适应性和专业知识,为各行业提供定制化解决方案。通过终生学习,这些智能智能体不断积累行业知识和用户反馈,提升在特定领域的有效性。

在教育领域,LLM Agent通过模拟课堂环境和师生互动,促进知识理解,并提供个性化学习支持。它们可以帮助教师批改作业和解答学生问题,也能帮助学生更高效地完成作业并提供个性化学习体验。此外,终生智能体还可以指导其他模型。

在法律领域,这些智能体分析法律文件和案例,提供法律建议和合规建议,协助法律决策和文书起草。

在医疗领域,LLM Agent 帮助医生进行诊断和治疗决策,并通过与患者互动提高医疗服务质量和效率。终生智能体还可以在其他行业通过持续学习适应新任务,降低劳动成本。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·