专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

从“说”到“做”：大语言模型为何会进化成智能体

AINLP · 公众号 · · 2025-01-17 18:25

正文

媒体上有关智能体的文章如同天上的繁星，这些文章大多数是从商业角度进行的概念炒作，有深度的文章却很少，尤其是从技术原理角度阐述的文章更是少之又少。我决定从技术原理角度展开对智能体的讨论，力求通俗易懂又有思考深度。欢迎大家批评斧正。

如果要笔者用一句话概括大语言模型与智能体的关系，我学习思考了很长时间，觉得最适合的一句话就是：

语言的边界就是世界的边界。--维特根斯坦

什么是智能体

从古代哲学家亚里士多德和休谟，到现代计算机科学家和AI研究者，智能体的概念一直在不断发展和演变：

亚里士多德将智能体定义为具有目的和行动能力的实体，能够根据内在的意图和欲望采取行动。休谟则强调智能体的感知和经验，认为智能体的行为是基于对环境的感知和经验的反应。

现代计算机科学家和AI研究者对智能体已经发展成为一个多维度、综合性的定义。一般来说，要具有以下特征才能被称之为智能体：

自主性（Autonomy）

指智能体能够独立于外部干预，自主地感知环境、做出决策并采取行动。智能体不需要人类的持续指导，能够根据自身的内部状态和环境信息自主地完成任务。自主性体现在自主操作和自主决策。

感知能力（Perception）

指智能体能够通过传感器感知其环境的状态。这些传感器可以是摄像头、麦克风、温度传感器等，用于收集环境中的各种信息。感知能力体现在多模态感知和实时感知。

决策能力（Decision-making）

是指智能体能够根据感知到的信息做出合理的决策。这些决策可以是简单的条件判断，也可以是复杂的推理和规划。决策能力体现在逻辑推理和多步骤规划。

行动能力（Action）

是指智能体能够通过行动器执行决策。这些行动器可以是机械臂、轮子、显示屏等，用于实现智能体的决策结果。行动能力体现在物理操作和虚拟操作。

适应性（Adaptability）

是指智能体能够根据环境的变化调整自身的行为和策略。智能体能够学习和适应新的环境条件，从而提高自身的性能和生存能力。适应性体现在零样本学习和少样本学习。

社会互动和合作能力

是指智能体能够与其他智能体、人类进行有效的社会协同互动和合作，完成复杂的任务。

传统计算机软件系统能实现智能体吗？

智能体的概念亘古有之，计算机软件系统的发展也有数十年之久。为什么智能体的概念要到大模型出现后才火遍全球呢？这个问题我也思考了良久。这是传统的计算机软件技术在智能体实现上有着严重的技术局限。

依赖用户输入、缺乏自主性

传统软件通常需要用户明确的指令才能执行任务。用户必须提供具体的输入，软件才能按照预设的逻辑进行处理。

例如，一个文字处理软件需要用户输入具体的命令（如打开文件、保存文件、编辑文本等）才能执行相应的操作。交互复杂，用户需要了解软件的具体操作步骤和命令，才能有效地使用软件。这增加了用户的负担，降低了软件的易用性。

通俗的讲，传统的软件系统，需要人“推一下，动一下”，没有主动性，行动死板僵化。

缺乏学习能力和适应性

传统的软件系统，预设的规则逻辑一旦设定，就无法依据环境的变化而做出改变。缺乏从数据中学习，迭代进化改变自身规则和逻辑的能力。只有等待人对软件系统进行升级更新后才会改变。

缺乏自主决策能力

传统软件通常按照预设的规则执行任务，缺乏自主决策的能力。它们无法根据环境信息进行复杂的推理和规划，无法根据环境变化，超越预设规则逻辑外，自主调整行为。

缺乏社会互动和合作能力

传统的软件系统，缺乏一种不同软件系统之间、软件系统与人之间的沟通协调的媒介。系统与系统之间是通过各种软件厂商的API调用、系统与人之间是通过鼠标、键盘沟通协调。这些沟通方式毫无交集，也无法通过翻译达成认知的一致。限制了在更大范围内开展复杂协调合作任务的能力。

以大模型为核心的智能体

大语言模型出现，让人们看到了智能体得以实现的希望，大语言模型展示了强大的语言理解、生成、推理和规划能力。这些能力使得LLM能够成为构建智能体（Agent）的理想基础，适合作为智能体的大脑。

强大的语言理解能力

LLM通过学习海量的文本数据，能够理解和生成自然语言。它们可以理解复杂的句子结构、语法和语义，甚至能够捕捉到语言中的隐含意义和情感。

广泛的知识储备

LLM在训练过程中吸收了广泛的知识，这些知识存储在模型的参数中。智能体可以利用这些知识来理解世界，做出决策。这些知识包括常识知识（例如，它知道水是湿的，火是热的。）和专业领域知识。

推理和规划能力

LLM通过链式思考（Chain-of-Thought）等技术，能够进行逻辑推理和多步骤规划。这使得智能体能够解决复杂的任务，例如，它可以帮助用户规划一次旅行，包括预订机票、酒店、安排行程等。

持续学习和适应能力

LLM具有强大的泛化能力，能够通过少量的示例快速适应新任务。这种零样本（Zero-shot）和少样本（Few-shot）学习能力，使智能体能够在不断变化的环境中持续学习和进化。

社会互动和合作能力

LLM能够理解和生成自然语言，使智能体能够与其他智能体和人类可以开展复杂的社会互动和协调合作。

在多代理系统中，LLM能够通过自然语言进行通信和协作，完成复杂的任务。例如，多个智能体可以分别负责不同的任务模块，通过高效的沟通和协作，提高整体效率。LLM还能够与人类进行自然流畅的对话，理解用户的需求并提供帮助。

ReAct：语言模型进化成智能体大脑的关键一跃

语言模型进化成智能体的大脑，不是一蹴而就的。这个过程的演变可以分为几个阶段：

语言理解与生成：早期的语言模型主要关注文本的生成和理解。它们能够根据输入生成连贯的文本，回答简单的问题，但在复杂任务中表现有限。

推理能力的增强：随着模型规模的扩大和训练数据的增加，语言模型逐渐具备了推理能力。通过链式思考（Chain-of-Thought）等技术，模型能够进行多步推理，解决更复杂的问题。

行动能力的引入：将推理与行动结合起来，使得语言模型不仅能够“思考”，还能够“行动”。通过与外部环境的交互（如调用API、执行任务），语言模型才真正演变为智能体。

Yao 等人(2022)提出ReAct是首次在大模型中将推理与行动结合起来。具体来说工作原理如下：

推理与行动的交替生成：ReAct方法通过交替生成推理轨迹（thought）和行动（action），使得模型能够在推理过程中动态调整行动计划。推理轨迹帮助模型分解任务目标、跟踪进度、处理异常情况，而行动则允许模型与外部环境交互以获取更多信息。

外部知识的使用：通过与外部知识库（如Wikipedia）的交互，ReAct方法能够获取实时信息，从而增强推理的准确性和事实性。

任务适应性：ReAct方法的设计具有通用性和灵活性，能够适应不同任务的需求。对于需要大量推理的任务（如问答和事实验证），ReAct会频繁生成推理轨迹；而对于需要大量行动的任务（如文本游戏和网页导航），推理轨迹则稀疏出现。

多任务学习和适应性：ReAct 通过多任务学习，能够在不同的任务中快速适应和学习。例如，在问答任务中，ReAct 可以通过少量的示例快速学习如何生成准确的答案；在决策任务中，ReAct 可以通过与环境的交互，快速学习如何制定和执行有效的行动计划。

举个例子，假设模型需要回答一个问题：“科罗拉多造山带东部区域的海拔范围是多少？”传统的语言模型可能会直接生成一个答案，但这个答案可能是错误的，因为它依赖于模型内部的知识。而ReAct模型则会通过以下步骤来解决问题：

推理：模型首先会思考，需要搜索“科罗拉多造山带”，找到东部区域，然后查找该区域的海拔范围。

行动：模型会执行搜索操作，获取相关信息。

推理：模型根据搜索结果，进一步推理出海拔范围。

行动：模型生成最终答案。

通过这种交替进行的推理和行动，模型不仅能够生成更准确的答案，还能够动态调整计划，处理复杂任务。

ReAct 还可以与强化学习结合，可以进一步提升其决策和行动的效率和准确性。通过人类反馈，可以进一步优化其推理和行动轨迹，使其更符合人类的思维方式和行为习惯。

结语

语言是我们理解世界的主要工具，语言所能描述或理解的事物范围，与人们所能认识或理解的世界的范围是一致的。语言的能力决定了我们理解世界、改造世界的能力。传统软件系统因技术局限难以真正实现智能体。

大语言模型的出现，凭借其强大的语言理解、生成、推理和规划能力，以及持续学习和适应性，打破了传统软件的束缚。ReAct等方法的诞生，更是将语言模型的推理与行动紧密结合，借助语言的力量，让智能体能够在复杂多变的环境中灵活应对，不断进化。

从“说”到“做”：大语言模型为何会进化成智能体

正文

请到「今天看啥」查看全文