大语言模型的威力我们都已经见证过,它在很多领域都展现出了惊人的实力。比如问答系统,大模型可以从海量的知识库中快速检索到相关信息并生成准确、简洁的答案。再比如文本生成,在广告文案、新闻撰写、小说创作等领域可以生成富有创意和连贯性的文本。还比如代码生成领域,开发者可以通过描述需求来生成相应的代码片段,这极大解放了一批程序员的生产力,各种
copilot
应运而生。
目前的大模型发展迅速,但在解决真实现实世界的问题时,毕竟仍存在它设计上或者技术实现上仍然不可调和的限制,主要包括:
-
缺乏自主性:
LLM
通常是被动地根据输入数据生成输出,而不具备主动地在环境中执行任务和做出决策的能力。这使得
LLM
在处理需要实时交互和自主行动的问题时可能不够高效。
-
缺乏长期记忆和状态:虽然
LLM
可以处理大量的文本数据,但由于
token context
的限制,它通常无法有效地存储和管理长期的记忆和状态。这可能导致在需要长期规划和决策的任务中表现不佳。
-
缺乏多模态处理能力:
LLM
主要关注文本数据的处理,而现实世界中的问题通常涉及多种类型的数据,如图像、声音等。当然现在已经有多模态的大模型出世,能够体验到端到端的多模态能力。
-
缺乏适应性:
LLM
的表现通常取决于预先训练好的模型,而在现实世界中,环境和任务可能会发生变化。
-
缺乏协作:
LLM
通常无法扮演多个角色,也无法与其他
LLM
或工具能力进行有效的协作。而在现实世界中,许多问题需要多个实体之间的协作来解决。
AI Agent
相较于人类本身智能的运作模式,大模型的确还在进化的初级。人类智能天生具有认知协同的特点,可以思考、整合、决策、执行。为了弥补或者增强大模型,让它不再试一个人在战斗,诞生了各种各样的研究,比较成功的即
AI Agent
(本文翻译为
AI
智能体)
AI Agent
中多个思维可以合作,结合他们的个体优势和知识,以增强复杂任务中的问题解决和整体性能。它是一种能够自主地执行任务、做出决策并在其环境中采取行动的智能系统。
AI Agent
从内部机理上通用的流程上涵盖,思考、计划、行动、反思、记忆的整个链条,并且它可以吸取并影响外部环境,及和其它
Agent
协作。
核心组成
人类的决策执行是一个非常复杂的过程,在
AI Agent
主要模拟了这个过程,这依赖于以下几个核心模块:
-
感知模块(
Perception
):感知模块负责从环境中收集信息,如图像、声音、文本等。这些信息使得
AI Agent
能够了解环境的状态和变化。感知模块通常包括传感器、摄像头等硬件设备,以及用于处理和分析数据的软件算法。
-
决策和规划模块:基于内部模型和知识表示,
Agent
进行推理和决策,以确定在给定环境状态下应该采取的最佳行动。这可以是通过搜索和规划算法实现,也可以是通过机器学习和优化方法实现。自我反思(
Self-reflection
)
-
记忆存储:它负责存储和管理
Agent
的知识、经验和信息。
-
行动(
Action
):根据推理和决策的结果,
Agent
执行具体的行动,以实现其目标或解决问题。行动可以是物理的(如机器人移动、抓取物体等),也可以是虚拟的(如软件
Agent
发送网络请求、修改数据等)。
思考规划
在
AI Agent
中,
"plan"
(计划)是指一系列有序的步骤或行动,这是
AI
感知、思考的产物,这些行动旨在实现
Agent
的特定目标或解决某个问题。计划是
Agent
根据其内部模型、算法和当前环境状态所生成的,用于指导其在环境中的行为。
思维链(
CoT
)技术已经成为这里实现的普遍标准(其它诸如思维树、
LLM+P
),这主要依靠的是合理的
prompting
工程(核心思想是通过向大语言模型说明少一些示例,并解释示例中的推理过程,大语言模型在回答时也会显示推理过程),要求
LLM
一步一步思考,将一个完整的问题拆分成多个子任务或者步骤,从而赋予了
LLM
规划的能力。例如:
才外还有一些其它的思路,比如通过在问题的结尾附加
“
Let's think step by step
”
这几个词,大语言模型能够生成一个回答问题的思维链。
更多的记忆
在
AI Agent
中,记忆模块是一个关键组件,它负责存储和管理
Agent
的知识、经验和信息。记忆模块的设计和实现可以根据具体的任务和需求进行调整。主要围绕感觉、短期、长期记忆而来:
-
感觉记忆:代表原始输入,包括情景、感情、描述、图像或者其它模态。
-
短期记忆:短期记忆模块用于存储和管理
Agent
的临时信息和状态。短期记忆通常具有有限的容量和持续时间,例如工作记忆、循环神经网络(
RNN
)等。
-
长期记忆:长期记忆模块用于存储和管理
Agent
的持久信息和知识。长期记忆通常具有较大的容量和持续时间,例如知识库、参数化模型等。
Embedding
技术和向量数据库,及各种相似度算法是实现高等记忆的基石。
工具协作
AI Agent
的核心价值一方面体现在自主,另一方面最大的价值体现在可以使用外部工具拓展能力。跟人类一样能够使用工具是人类进化的一个重要标志。
Agent
项目
AutoGPT