专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
最江阴  ·  不要买!不要买!内含违禁成分! ·  10 小时前  
最江阴  ·  不要买!不要买!内含违禁成分! ·  10 小时前  
晨枫老苑  ·  战斗机换发是否需要重新研发发动机数控 ·  昨天  
晨枫老苑  ·  战斗机换发是否需要重新研发发动机数控 ·  昨天  
山西省生态环境厅  ·  省生态环境厅选送作品入围中国正能量网络精品~ ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

AI Agent-知行合一

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-04 23:30

正文

大语言模型的威力我们都已经见证过,它在很多领域都展现出了惊人的实力。比如问答系统,大模型可以从海量的知识库中快速检索到相关信息并生成准确、简洁的答案。再比如文本生成,在广告文案、新闻撰写、小说创作等领域可以生成富有创意和连贯性的文本。还比如代码生成领域,开发者可以通过描述需求来生成相应的代码片段,这极大解放了一批程序员的生产力,各种 copilot 应运而生。

目前的大模型发展迅速,但在解决真实现实世界的问题时,毕竟仍存在它设计上或者技术实现上仍然不可调和的限制,主要包括:

  1. 缺乏自主性: LLM 通常是被动地根据输入数据生成输出,而不具备主动地在环境中执行任务和做出决策的能力。这使得 LLM 在处理需要实时交互和自主行动的问题时可能不够高效。

  2. 缺乏长期记忆和状态:虽然 LLM 可以处理大量的文本数据,但由于 token context 的限制,它通常无法有效地存储和管理长期的记忆和状态。这可能导致在需要长期规划和决策的任务中表现不佳。

  3. 缺乏多模态处理能力: LLM 主要关注文本数据的处理,而现实世界中的问题通常涉及多种类型的数据,如图像、声音等。当然现在已经有多模态的大模型出世,能够体验到端到端的多模态能力。

  4. 缺乏适应性: LLM 的表现通常取决于预先训练好的模型,而在现实世界中,环境和任务可能会发生变化。

  5. 缺乏协作: LLM 通常无法扮演多个角色,也无法与其他 LLM 或工具能力进行有效的协作。而在现实世界中,许多问题需要多个实体之间的协作来解决。

AI Agent

相较于人类本身智能的运作模式,大模型的确还在进化的初级。人类智能天生具有认知协同的特点,可以思考、整合、决策、执行。为了弥补或者增强大模型,让它不再试一个人在战斗,诞生了各种各样的研究,比较成功的即 AI Agent (本文翻译为 AI 智能体)

AI Agent 中多个思维可以合作,结合他们的个体优势和知识,以增强复杂任务中的问题解决和整体性能。它是一种能够自主地执行任务、做出决策并在其环境中采取行动的智能系统。

AI Agent 从内部机理上通用的流程上涵盖,思考、计划、行动、反思、记忆的整个链条,并且它可以吸取并影响外部环境,及和其它 Agent 协作。

核心组成

人类的决策执行是一个非常复杂的过程,在 AI Agent 主要模拟了这个过程,这依赖于以下几个核心模块:

  1. 感知模块( Perception ):感知模块负责从环境中收集信息,如图像、声音、文本等。这些信息使得 AI Agent 能够了解环境的状态和变化。感知模块通常包括传感器、摄像头等硬件设备,以及用于处理和分析数据的软件算法。

  2. 决策和规划模块:基于内部模型和知识表示, Agent 进行推理和决策,以确定在给定环境状态下应该采取的最佳行动。这可以是通过搜索和规划算法实现,也可以是通过机器学习和优化方法实现。自我反思( Self-reflection

  3. 记忆存储:它负责存储和管理 Agent 的知识、经验和信息。

  4. 行动( Action ):根据推理和决策的结果, Agent 执行具体的行动,以实现其目标或解决问题。行动可以是物理的(如机器人移动、抓取物体等),也可以是虚拟的(如软件 Agent 发送网络请求、修改数据等)。

思考规划

AI Agent 中, "plan" (计划)是指一系列有序的步骤或行动,这是 AI 感知、思考的产物,这些行动旨在实现 Agent 的特定目标或解决某个问题。计划是 Agent 根据其内部模型、算法和当前环境状态所生成的,用于指导其在环境中的行为。

思维链( CoT )技术已经成为这里实现的普遍标准(其它诸如思维树、 LLM+P ),这主要依靠的是合理的 prompting 工程(核心思想是通过向大语言模型说明少一些示例,并解释示例中的推理过程,大语言模型在回答时也会显示推理过程),要求 LLM 一步一步思考,将一个完整的问题拆分成多个子任务或者步骤,从而赋予了 LLM 规划的能力。例如:

才外还有一些其它的思路,比如通过在问题的结尾附加 Let's think step by step 这几个词,大语言模型能够生成一个回答问题的思维链。

更多的记忆

AI Agent 中,记忆模块是一个关键组件,它负责存储和管理 Agent 的知识、经验和信息。记忆模块的设计和实现可以根据具体的任务和需求进行调整。主要围绕感觉、短期、长期记忆而来:

  1. 感觉记忆:代表原始输入,包括情景、感情、描述、图像或者其它模态。

  2. 短期记忆:短期记忆模块用于存储和管理 Agent 的临时信息和状态。短期记忆通常具有有限的容量和持续时间,例如工作记忆、循环神经网络( RNN )等。

  3. 长期记忆:长期记忆模块用于存储和管理 Agent 的持久信息和知识。长期记忆通常具有较大的容量和持续时间,例如知识库、参数化模型等。

Embedding 技术和向量数据库,及各种相似度算法是实现高等记忆的基石。

工具协作

AI Agent 的核心价值一方面体现在自主,另一方面最大的价值体现在可以使用外部工具拓展能力。跟人类一样能够使用工具是人类进化的一个重要标志。

Agent 项目

AutoGPT







请到「今天看啥」查看全文