专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
疯狂区块链  ·  你还没理解“钱的重要性” ·  18 小时前  
疯狂区块链  ·  特斯拉股票还能不能买? ·  昨天  
疯狂区块链  ·  财务自由后你想干什么? ·  2 天前  
白话区块链  ·  以太坊现货ETF持续流入,为何ETH价格却毫 ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

AI智能体(Agent)能力定义与分级:L0-L5,揭秘AI智能体的进化之路

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-09-25 02:44

正文

AI智能体被定义为感知环境、做出决策和采取行动的人工实体。受到SAE(汽车工程师协会)定义的6个自动驾驶级别的启发, 我们将AI智能体能力分为: L0-没有人工智能;L1-规则符号智能;L2-推理决策智能;L3-记忆反思智能;L4-自主学习智能;L5-个性群体智能。后续会给出分级具体定义。

作者: 张长旺,图源: 旺知识

1 - 引言

任何能够感知其环境并执行行动的实体都可以被视为智能体。智能体可以分为五种类型:简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体和学习智能体[1]。随着AI的发展,“智能体”一词被用来描述表现出智能行为并具有自主性、反应性、主动性和社交互动等能力的实体。在20世纪50年代,艾伦·图灵提出了著名的图灵测试[2]。它是AI的基石,旨在探索机器是否能够展示与人类相当或更好的智能行为。这些AI实体通常被称为“智能体”,构成了AI系统的基本构建块。基础模型[3]在NLP领域最为突出。从技术层面上,基础模型是通过迁移学习和规模实现的。迁移学习的思想是将从一项任务中学到的“知识”应用到另一项任务中。基础模型通常遵循这样一个范式:一个模型在代理任务上预训练,然后通过微调适应感兴趣的下游任务。最近出现的大多数大型语言模型(LLMs)[4]都是基于或建立在基础模型之上的。由于最近展示的卓越能力,LLMs被视为AI向人工通用智能(AGI)渗透的潜在力量,为构建通用AI智能体提供了希望。

AI智能体通常指的是能够使用传感器感知周围环境、做出决策和使用执行器采取行动的人工实体[5]。根据世界范围(WS)[6]的概念,它通过包含从NLP到通用AI的5个级别(即语料库、互联网、感知、具体化和社会)来审计NLP的进展,纯基于LLM的智能体仅建立在从书面互联网世界的第二级。除此之外,LLMs在知识获取、指令解释、泛化、规划和推理方面证明了卓越的能力,同时展示了与人类的自然语言互动。从这个状态出发,LLM辅助的智能体具有扩大的感知空间和行动空间,有潜力达到世界范围的第三和第四级别,即感知AI和具体化AI。此外, 这些基于LLM的智能体可以通过协作或游戏处理更困难的任务,并且可以发现社会现象,实现世界范围的第五级别,即社会世界。 第2节中,简要回顾了LLMs;第3节详细阐述了各种AI智能体;第4节分析并定义了AI智能体的级别;最后给出结论。

2 - 大语言模型(LLMs)

LLMs[4]是基于Transformer的语言模型类别,其特点是拥有大量的参数,通常数以千亿计甚至更多。这些模型在庞大的文本数据集上进行训练,使它们能够理解自然语言并执行广泛的复杂任务,主要通过文本生成和理解。一些知名的LLMs示例包括GPT3/4、PaLM、OPT和LLaMA1/2。

广泛的研究表明,规模可以大大提高LLMs的模型容量。因此,建立一个定量方法来描述规模效应是有用的。有两种代表性的Transformer语言模型的规模定律:一种来自OpenAI[7],另一种来自Google DeepMind[8]。"预训练+微调"的过程被另一种称为"预训练+提示+预测"的过程所取代[9]。 在这个范式中,不是通过目标工程将预训练的语言模型(LM)适应到下游任务,而是将下游任务重新构建,使其看起来更像是在原始LM训练期间通过文本提示解决的问题。 通过选择适当的提示,可以操纵模型行为,以便预训练的LM本身可以用来预测所需的输出,有时甚至不需要任何额外的任务特定训练。

提示工程[10]的工作原理是找到最合适的提示,以允许语言模型解决手头的任务。LLMs的新兴能力是区分它们与较小语言模型的最重要特征之一。具体来说, 上下文学习(ICL)[11]、指令跟随[12]和思维链(CoT)推理[13]是LLMs的三种典型新兴能力。 参数高效微调(PEFT)[14]是一种关键技术,用于将预训练的语言模型(LLMs)适应到专门的下游应用中。PEFT可以细分为基于添加的、基于选择/规范的或基于重新参数化的。它只需要微调一小部分参数,使其方便用于边缘设备,并且可以有效缓解灾难性遗忘问题。由于LLMs被训练以捕获预训练语料库(包括高质量和低质量数据)的数据特征,它们可能会为人类生成有毒的、有偏见的甚至有害的内容。有必要使LLMs与人类价值观保持一致,例如,有帮助、诚实和无害。从人类反馈中进行强化学习(RLHF)[15]已成为微调LLM系统以更紧密地与人类偏好对齐的关键策略。

受到LLMs潜力的激励,提出了许多多模态LLMs(MLLMs)[16],以将LLMs扩展到多模态领域,即感知图像/视频输入,并在多轮对话中与用户交流。在大量图像/视频-文本对上预训练,上述模型只能处理图像级任务,如图像字幕和问题回答。在强大的预训练LLM权重的基础上,多模态LLMs旨在处理除文本之外的多种类型的输入。多模态LLMs已广泛应用于各种任务,如图像理解、视频理解、医学诊断和具体化AI等。人们认为LLMs配备了类似人类的智能和常识,保留了使我们更接近人工通用智能(AGI)领域的潜力。LLMs的出现可能是知识驱动智能体的里程碑,它们感知环境并积累知识[17-27]。

3 - AI智能体

AI智能体能够根据其训练和输入数据进行理解、预测和响应。在这些能力得到发展和改进的同时,了解它们的局限性以及它们所训练的基础数据的影响是很重要的。AI智能体系统有一些能力:1)感知和预测建模。2)规划和决策制定。3)自我学习和持续改进;4)执行和互动;5)个性化和协作。 具体化智能/AI的目标是构建智能体,例如机器人,它们通过智能体与环境之间的交互学习解决任务。

对于AI智能体来说,学习行动的有效方法,如RL,是通过与环境的交互进行试错体验。在物理环境中进行训练通常是不可行的,因此使用模拟器来学习策略是一种常见方法。

符号AI[17-18]应用逻辑规则和符号表示来封装知识和促进推理过程,在其中关键问题是转导和表示/推理。 一个经典的例子是知识型专家系统。符号智能体在不确定性和大规模问题上面临限制。它们主要依赖于固定的算法或规则集,在它们构建的任务中表现良好。然而,它们通常很难在面对OOD(分布外)任务时进行泛化和推理。

基于RL的智能体[19-24]通过与环境的交互进行累积奖励学习,以处理更困难的任务。 一个例子是使用Q学习的AlphaGo。尽管如此,RL的问题是长时间的训练、低样本效率和稳定性问题,特别是在现实世界环境中。

知识智能体可以隐式或显式地利用知识。 隐性知识通常是LLMs封装的,显性知识是结构化的,被查询以生成响应。隐性和显性知识的结合使AI智能体能够像人类智能一样在上下文中应用知识。基于LLM的智能体[25-35]将LLMs作为大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展它们的感知和行动空间。它们可以通过思维链(CoT)和任务分割等技术启用推理和规划能力。

LLMs的出现对AI智能体设计产生了重大变化。这些LLM智能体不仅精通理解和生成自然语言,而且擅长泛化。这种能力使它们能够轻松地与各种工具集成,增强了它们的多功能性。 另一方面,LLMs的新兴能力在推理方面显示了优势。 具有预训练知识的LLM智能体即使没有特定任务的训练,也倾向于决策策略。 另一方面,RL智能体通常需要在看不见的情况下从头开始训练,使用交互来学习。

基于LLM的智能体可以相互交互,导致社会现象的出现。 在基于LLM的多智能体系统(MAS)中,智能体参与协作、竞争或层次平台来执行任务。 这些任务可以从搜索和优化、决策制定和资源分配到协作控制开始。 智能体之间的关系决定了它们之间的互动和合作状态。 情感推理和移情是许多人工智能-机器交互中智能体的重要技能。

4 - AI智能体级别

基于能力的范围(普遍性)和深度(性能),一种分类AGI的矩阵方法在[28]中给出,如下表1所示。其中 性能( Performance )指标 估计AGI与人类在给定任务上的性能水平的比较; 普遍性( Generality ) 指标 衡量AI达到目标性能阈值的任务范围。 性能和/或普遍性级别的进展速率可能是非线性的。

个人LLM智能体[35]所需的理想特性需要不同种类的能力。个人LLM智能体的智能级别被分为5个级别,从L1到L5。每个级别的关键特征和代表性用例列在下面的表2中。

在本文中,我们 根据技术和能力来 定义和划分AI智能体的级别如下:


4.1 工具(感知+行动)

各种外部工具支持智能体更丰富的行动能力,包括API、知识库、视觉编码模型和语言模型,使智能体能够适应环境变化,提供交互和反馈,甚至影响环境。工具执行可以反映智能体的复杂要求,并增强其决策的可信度。行动模块的目标是将智能体的决策转化为具体结果。它与环境互动并获取反馈,决定智能体实现任务的有效性。人类反馈与环境的有效性可以使智能体验证其行动结果。行动可以具有感知模块、低级运动规划器和控制器,特别是在机器人和自动驾驶中。特别是,感知模块,像人类的感觉系统,即眼睛和耳朵,感知环境的变化,然后将多模态信息转换为智能体的统一表示。如果智能体配备了记忆模块,记忆回忆可以是行动策略,使智能体能够根据存储在记忆模块中的经验做出决策。智能体可以利用多轮来确定适当的响应作为行动,特别是对于对话目的的聊天智能体。行动的后果可能包括环境的变化、智能体内部状态的变化、新行动的启动以及在人工智能交互场景中对人类感知的影响。

4.2 推理与决策制定

推理对人类智能至关重要,是解决问题、决策制定或规划以及关键分析的基础。演绎、归纳和溯因是推理的主要形式。传统的推理主要依赖于符号方法或模仿/强化学习基础的方法。但观察到这些方法有几个缺点。符号方法需要将自然语言描述的问题转换为规则,这可能需要手动帮助。大多数情况下,这种方法对错误敏感。模仿学习(IL)和强化学习(RL)方法通常与深度神经模型结合使用,作为策略网络、价值函数或奖励模型。虽然RL方法需要大量的样本(与环境的交互),但IL算法很难处理看不见的场景。对于基于LLM的智能体,像人类一样,推理对于解决复杂任务至关重要。它们可能在预训练或微调期间拥有推理能力,或者在达到一定规模后出现。思维链(CoT)是LLMs中推理的代表性方法,它通过提示中的少量语言示例逐步解决复杂的推理问题。通过将复杂任务分解为可执行的子任务,LLMs制定计划和决策的能力显著提高。CoT的扩展包括思维树(ToT)和思维图(GoT),假设人类倾向于以树状或图状的方式思考。多路径思维进一步增强了智能体解决更复杂规划任务的能力。推理通过规划或决策制定进行。规划模块使基于LLM的智能体具有推理和规划任务的能力,无论是否有反馈。与传统智能体调用规划方法如Dijkstra和POMDP以获得最佳行动和计划不同,基于RL的智能体需要学习策略。基于LLM的智能体从LLM实现其规划能力。此外,LLMs在意图理解和其他方面显示出显著的潜力。

基于LLM的智能体可能无法通过提示达到正确的知识,甚至面临幻觉问题。专门的工具使LLMs能够增强其专业知识并适应领域知识。基于LLM的智能体的决策过程缺乏透明度,在高风险领域不太可靠。此外,LLMs对对抗性攻击不容忍。量身定制预训练模型的力量,只需少量数据进行微调,LLMs就可以在下游任务中表现出更强的性能。与仅作为固定知识库的功能不同,基于LLM的智能体表现出适应新任务的强大学习能力。指令调整的LLMs展示了无需微调的零样本泛化。LLMs可以通过遵循指令,在训练阶段未出现的新任务中实现。通过将原始输入与几个示例作为提示结合起来,少量上下文学习(ICL)提高了LLMs的预测性能,以增强上下文。为了模仿人类在反馈经验方面的能力,可以设计规划模块以从环境、人类和模型接收反馈,提高基于LLM的智能体的规划能力。外部反馈作为规划成功或失败的直接评估,构建闭环规划。

4.3 记忆+反思






请到「今天看啥」查看全文