AI Agent-知行合一

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-04 23:30

正文

大语言模型的威力我们都已经见证过，它在很多领域都展现出了惊人的实力。比如问答系统，大模型可以从海量的知识库中快速检索到相关信息并生成准确、简洁的答案。再比如文本生成，在广告文案、新闻撰写、小说创作等领域可以生成富有创意和连贯性的文本。还比如代码生成领域，开发者可以通过描述需求来生成相应的代码片段，这极大解放了一批程序员的生产力，各种 copilot 应运而生。

目前的大模型发展迅速，但在解决真实现实世界的问题时，毕竟仍存在它设计上或者技术实现上仍然不可调和的限制，主要包括：

缺乏自主性： LLM 通常是被动地根据输入数据生成输出，而不具备主动地在环境中执行任务和做出决策的能力。这使得 LLM 在处理需要实时交互和自主行动的问题时可能不够高效。
缺乏长期记忆和状态：虽然 LLM 可以处理大量的文本数据，但由于 token context 的限制，它通常无法有效地存储和管理长期的记忆和状态。这可能导致在需要长期规划和决策的任务中表现不佳。
缺乏多模态处理能力： LLM 主要关注文本数据的处理，而现实世界中的问题通常涉及多种类型的数据，如图像、声音等。当然现在已经有多模态的大模型出世，能够体验到端到端的多模态能力。
缺乏适应性： LLM 的表现通常取决于预先训练好的模型，而在现实世界中，环境和任务可能会发生变化。
缺乏协作： LLM 通常无法扮演多个角色，也无法与其他 LLM 或工具能力进行有效的协作。而在现实世界中，许多问题需要多个实体之间的协作来解决。

AI Agent

相较于人类本身智能的运作模式，大模型的确还在进化的初级。人类智能天生具有认知协同的特点，可以思考、整合、决策、执行。为了弥补或者增强大模型，让它不再试一个人在战斗，诞生了各种各样的研究，比较成功的即 AI Agent （本文翻译为 AI 智能体）

AI Agent 中多个思维可以合作，结合他们的个体优势和知识，以增强复杂任务中的问题解决和整体性能。它是一种能够自主地执行任务、做出决策并在其环境中采取行动的智能系统。

AI Agent 从内部机理上通用的流程上涵盖，思考、计划、行动、反思、记忆的整个链条，并且它可以吸取并影响外部环境，及和其它 Agent 协作。

核心组成

人类的决策执行是一个非常复杂的过程，在 AI Agent 主要模拟了这个过程，这依赖于以下几个核心模块：

感知模块（ Perception ）：感知模块负责从环境中收集信息，如图像、声音、文本等。这些信息使得 AI Agent 能够了解环境的状态和变化。感知模块通常包括传感器、摄像头等硬件设备，以及用于处理和分析数据的软件算法。
决策和规划模块：基于内部模型和知识表示， Agent 进行推理和决策，以确定在给定环境状态下应该采取的最佳行动。这可以是通过搜索和规划算法实现，也可以是通过机器学习和优化方法实现。自我反思（ Self-reflection ）
记忆存储：它负责存储和管理 Agent 的知识、经验和信息。
行动（ Action ）：根据推理和决策的结果， Agent 执行具体的行动，以实现其目标或解决问题。行动可以是物理的（如机器人移动、抓取物体等），也可以是虚拟的（如软件 Agent 发送网络请求、修改数据等）。

思考规划

在 AI Agent 中， "plan" （计划）是指一系列有序的步骤或行动，这是 AI 感知、思考的产物，这些行动旨在实现 Agent 的特定目标或解决某个问题。计划是 Agent 根据其内部模型、算法和当前环境状态所生成的，用于指导其在环境中的行为。

思维链（ CoT ）技术已经成为这里实现的普遍标准（其它诸如思维树、 LLM+P ），这主要依靠的是合理的 prompting 工程（核心思想是通过向大语言模型说明少一些示例，并解释示例中的推理过程，大语言模型在回答时也会显示推理过程），要求 LLM 一步一步思考，将一个完整的问题拆分成多个子任务或者步骤，从而赋予了 LLM 规划的能力。例如：

才外还有一些其它的思路，比如通过在问题的结尾附加 “ Let's think step by step ” 这几个词，大语言模型能够生成一个回答问题的思维链。

更多的记忆

在 AI Agent 中，记忆模块是一个关键组件，它负责存储和管理 Agent 的知识、经验和信息。记忆模块的设计和实现可以根据具体的任务和需求进行调整。主要围绕感觉、短期、长期记忆而来：

感觉记忆：代表原始输入，包括情景、感情、描述、图像或者其它模态。
短期记忆：短期记忆模块用于存储和管理 Agent 的临时信息和状态。短期记忆通常具有有限的容量和持续时间，例如工作记忆、循环神经网络（ RNN ）等。
长期记忆：长期记忆模块用于存储和管理 Agent 的持久信息和知识。长期记忆通常具有较大的容量和持续时间，例如知识库、参数化模型等。

Embedding 技术和向量数据库，及各种相似度算法是实现高等记忆的基石。

工具协作

AI Agent 的核心价值一方面体现在自主，另一方面最大的价值体现在可以使用外部工具拓展能力。跟人类一样能够使用工具是人类进化的一个重要标志。

Agent 项目

AutoGPT

AI Agent-知行合一

正文

请到「今天看啥」查看全文