主要观点总结
文章介绍了AI Agent的定义、特点、工作原理以及未来发展。AI Agent是一种基于大语言模型的智能实体,具有感知环境、决策和执行动作的能力。文章还详细阐述了AI Agent的工作原理,包括感知、信息处理、执行和输出四个主要部分。同时,文章也指出了AI Agent技术面临的瓶颈和未来发展潜力。
关键观点总结
关键观点1: AI Agent的定义和广泛被接受的定义
AI Agent是一种能够感知环境、进行决策和执行动作的智能实体,基于大语言模型(LLM)。
关键观点2: AI Agent的特点
AI Agent具有自主性、交互性、目的性、适应性、进化性等特点。
关键观点3: AI Agent的工作原理
AI Agent的工作原理主要包括感知、信息处理、执行、输出四部分,其中感知是第一步,通过传感器等设备感知周围环境;信息处理包括知识获取、推理与规划等;执行包括行动规划和资源调度;输出包括响应生成和用户交互。
关键观点4: AI Agent的未来发展
目前AI Agent技术仍面临一些瓶颈,如技术不够成熟、成本高等问题。但随着大模型的不断发展,AI Agent的能力边界也在不断突破,未来有望在各个领域得到广泛应用。
正文
AI Agent
以各种形态存在于我们生活的方方面面,大众比较熟知的有Siri、小爱同学等虚拟助手,但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。
AI Agent的热潮始于2023年3月左右,彼时很大程度上得益于诸如GPT-4等大语言模型(LLMs)的突破性进展,再加上一些开源框架和工具的出现,如AutoGPT,进一步降低了开发AI Agent的技术门槛,使得开发者能够更容易地构建和部署自己的AI Agent。所以,AI Agent得以快速发展和应用。
AI Agent是AI的未来,并预言不久的将来,所有人都将拥有自己专属的AI助理。
今天就让我们来看看,到底什么是AI agent?它的工作原理是什么?未来发展怎样?
业界对AI agent的定义各不相同,更广泛被使用的一种定义是:一种能够感知环境、进行决策和执行动作的智能实体。而站在软件工程的角度看来,AI agent(智能体)是一种基于大语言模型(LLM)的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。
我们再拆开这个词来帮助理解:“agent”中文意思是代理人,可以单纯理解为有人帮你去做某件事。那么,AI agent简单来说,就是一个由AI技术加持的代理人,它变得更聪明了,可以感知周围的环境,并且能够独立地思考和行动。
举个简单例子,我们现在常用的一些聊天机器人文心一言、Kimi Chat等,需要一直告诉它要做什么,但是更聪明的AI agent不一样,我们只要给它一个目标,它就能想办法自动帮你完成。
比如,智能家居系统中的智能恒温器,可以通过传感器检测室内外的温度变化,还可以学习你的生活习惯和偏好——你通常什么时间段在家,在什么时间段你更倾向于较冷或较暖的环境,据此来自动调整加热或冷却计划,以确保室内温度保持在舒适的范围内。整个过程无需给它明确的指令。
相较于传统的、静态的人工智能,AI agent具有几个显著的特点:
自主性:
AI Agent具有独立思考和行动的能力,能够在没有人类直接指导的情况下完成任务。
交互性:
AI Agent能够与环境或其他Agent进行交互,这通常用于游戏、对话系统、推荐系统等场景。
目的性:
AI Agent设计有明确的目标或意图,它们的行为是为了实现这些目标。
适应性:
AI Agent能够根据环境的变化调整自己的行为,以适应新的情境。
进化性:
随着技术的发展,AI Agent的功能和智能水平也在不断提升。
复旦大学自然语言处理团队在推出的LLM-based Agents 综述论文中,用一个例子来说明了LLM-based Agent的工作流程:当人类询问是否会下雨时,
感知端(Perception)
将指令转换为 LLMs 可以理解的表示。然后
控制端(Brain)
开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后,
行动端(Action)
做出响应并将雨伞递给人类。
不难看出,在以大语言模型(LLM)为基础的AI agent中,LLM充当agent大脑的角色,并与若干关键组件协作。
可以用一个公式概括AI Agent的主要组成部分:
AI Agent = LLM(大语言模型推理能力)+ Planning(规划能力)+ Memory(记忆能力)+ Tools(使用工具能力)+ Action(行动能力)。