专栏名称: 旺知识

AI技术最新进展、发展趋势、研发经验、从业经验

RLChina2024-AI Agent业界进展和发展趋势：简史、进展、难题、分级、趋势

旺知识 · 公众号 · · 2024-10-20 22:04

正文

本文是我们在RLChina2024现场报告《AI Agent业界进展和发展趋势》的文字整理版。

本文是我们对于对AI Agent的业界进展和发趋势的洞察，这份报告分为五个主要部分：

第一部分是AI Agent技术发展的简史，包括它的概念定义、发展历史，以及落地时技术栈的构成。
第二部分是我们对AI Agent业界进展的洞察，涵盖了主要Agent厂商如OpenAI、谷歌等的重要技术发布、关键时间和发展趋势的洞察
第三部分是我们对一些重要或是有趣的AI Agent的解读。
第四部分聚焦于AI Agent落地时遇到的难题，我们对此进行了总结和思考。
第五部分是我们对AI Agent发展趋势的预测，包括Agent能力的分级和未来发展趋势的预估。

一、AI Agent 技术简史

首先，让我们从AI Agent技术发展的简史开始。

1、Agent概念定义

从2003年出版的经典人工智能书籍《Artificial Intelligence: A Modern Approach》中，我们可以看到 AI被定义为研究从环境中接收感知并执行行动的智能体。 智能体并不是一个全新的概念，而是自AI诞生以来就存在的理念。智能体的发展贯穿了AI的始终，并非突然冒出的能力。

2、Agent发展阶段

我们可以将智能体的发展分为几个阶段。

第一个阶段是规则Agent，基于特定条件触发动作的系统，如看到美女推荐口红，这类系统也被称为专家系统。 尽管听起来简单，但专家系统在AI发展的关键阶段发挥了重要作用。然而，这类Agent严重依赖人工，智能主要来源于人输入的信息，扩展性差，通用性也较差。

第二个阶段是强化学习Agent，它们通过不断的自我实验和环境反馈来调整和优化智能体的能力。 DeepMind 发布的能打游戏的智能体在 Atari 游戏中水平超过人类，惊艳了业界。但这种智能体难以训练，因为强化学习本身难以收敛，通用性也较差，比如打游戏的智能体难以给人做学习辅导。

第三个阶段是基于大语言模型的智能体，它们基于知识基础能力，让我们看到了具有通用能力的智能体的曙光。 但这些智能体并非万能，它们在推理规划能力上较弱，可靠性差，且难以服务专业领域的任务。OpenAI 的 CEO 奥特曼和盖茨访谈时提到 GPT4 的推理能力非常有限。

3、Agent技术栈

在落地技术栈方面，智能体主要由四个层次构成：硬件层、模型层、系统层和应用层。 硬件层包括GPU、TPU、NPU等运行智能体所需的硬件。模型层涵盖了语言模型、多模态模型、信息检索模型等。系统层包括开发框架，如LangChain和Dify，它们支撑着智能体的开发。最上层是AI Agent应用，呈现出多样化的发展趋势。

二、AI Agent 大厂进展

接下来，我们将探讨AI Agent业界的主要进展。我们会简要回顾主要Agent厂商，如OpenAI、谷歌、微软、苹果等，他们的重要技术发布时间节点和技术发展的脉络，从而总结出趋势，并对我们认为有趣的Agent进行解读。

1、热门AI产品

我们首先看一下AI产品的榜单，这里有两个榜单：AI应用排行榜和AI网站排行榜。 主要火热的AI产品可以分为三种：对话助手类应用、AI搜索类应用和AI图像处理生成类应用。 这些主要是面向消费者的应用，而面向企业的应用程序可能没有被覆盖在这些榜单中。

2、OpenAI Agent进展

接下来，我们简要回顾大语言模型发展的一个非常重要的厂商——OpenAI的智能技术进展。从2022年年底发布的ChatGPT开始，它惊艳了世界，能够与人进行流畅的对话。ChatGPT的发布是许多关注的起点，它的表现非常出色。从ChatGPT发布后，OpenAI的演进有几个路线。首先是基础模型的演进，如GPT-4的发布，它提升了基础语言模型的能力。此外，语言模型的发展趋势还包括图像处理能力和实时处理声音、图像、文字的能力。

OpenAI不断丰富其生态，建立了插件系统，用户可以自定义智能体的商店，并开发了检索增强生成引擎。最近，OpenAI发布了O1技术，它能够在运行时增强模型和智能体的推理能力。

OpenAI AI Agent进展总结为：实时多模态、工具生态、运行时推理优化。。

3、Google Agent进展

谷歌的Agent技术进展也值得关注。从23年初发布的Bard对话助手，到PaLM2语言模型，谷歌在多语言能力上进行了增强。真正的突破是谷歌发布的Gemini模型及其Agent系统，这是第一次实现原生多模态的大模型。原生多模态大模型的优势在于，它将各种模态的信息平等地输入到基底模型中，提供了更大的优化空间。此外，谷歌还发布了CircleToSearch、搜索Overview和视频搜索能力，以及24年5月份发布的Project Astra人工智能助手。

Google AI Agent进展总结为：实时多模态、长上下文、AI搜索。

4、微软Agent进展

微软的Agent技术发展脉络也颇具看点。微软的Agent技术发展比ChatGPT还要早，主要体现在2022年年终发布的Github Copilot产品上，这是一个编程开发的助手，显著提升了程序员的编程效率。微软还发布了NewBing搜索，它是一个检索增强生成的搜索能力，能够直接给出答案而非提供大量相关信息。微软还发布了多个编程开发大模型智能体开发的框架，如SemeticKernel和AutoGen，以及Copilot，这是一个类似于ChatGPT的大模型对话平台。微软也在构建自己的生态，发布了Copilot agents，增强了办公效率，并推出了Microsoft 365 Copilot办公助手智能体。

Microsoft AI Agent进展总结为：生产力助手，开发框架，AIPC。

5、苹果Agent进展

苹果的Agent技术进展同样不容忽视。苹果早在2010年就发布了智能语音助手Siri，虽然在很长一段时间内没有特别惊艳的进展，但苹果最近发布了Apple Intelligence，这是一个端云协同的助手系统。苹果还发布了自己的语言模型，包括小的语言模型和隐私计算量大的语言模型。苹果的进展可以总结为端云协同、大小模型以及端侧模型构建的发力。

Apple AI Agent进展总结为：端云协同，大小模型，端侧模型。

三、AI Agent 案例解读

最后，我们想介绍一些我们认为有趣或代表性的Agent，以及我们从中得到的启发。

1、微软NewBing(检索增强生成搜索)

首先是微软发布的NewBing，这是一个检索增强生成的搜索引擎。它的背景是大语言模型的出现可能颠覆搜索产品形态，因为传统的搜索产品需要用户浏览大量内容来找到所需信息，而大语言模型可能直接给出答案。NewBing的出现正是为了尝试这一思路，它试图通过检索生成的搜索引擎直接给出用户答案，而非一堆候选，从而颠覆搜索形态，提升产品力，并潜在地抢占谷歌的业务份额。

这里给我们的启发是： 大语言模型仍需检索能力增强对实时信息和事件真实性及外部知识的控制能力。

2、MetaGPT(SOP增强智能体)

另一个我们想谈的智能体是MetaGPT，它的背景是我们在应用大模型进行智能体开发时发现，对于多步骤任务，成功率较低。MetaGPT提出了使用标准工作流（SOP）来增强大模型智能体的能力。具体来说，它通过定义软件开发的SOP流程，让大模型只负责每个步骤的具体工作，如代码生成或生成系统设计文档，而系统的框架则负责提供每个步骤所需的必要信息，减少干扰，提升成功率。此外，还有验证能力，能够实际运行和验证大模型生成的程序，如有错误则提供反馈以进行迭代和修改。这种方法在软件开发任务上的通过率相对于GPT-4本身提升了10%以上。

这里给我们的启发是： 对于复杂的专业性任务，大语言模型需要借助领域的流程、消息分发机制以及验证反馈来保证和提升成功率。

3、苹果Apple Intelligence(端云智能系统)

苹果最近推出的Apple Intelligence也是一个有趣的智能体系统，它是一个智能端云系统。这个系统的背景是，用户在手机上有很多智能应用需求，但手机上的信息往往涉及隐私，不适合全部透露给外部服务商或云侧处理。因此，端侧处理用户隐私信息的能力变得重要。苹果作为领先的手机制造商，推出了Apple Intelligence这套端云系统。该系统在端侧具有模型推理能力，并能与云侧协同。端侧不仅有基础的大模型，还有通过动态卸载更换不同模块的附加模型，以充分利用端侧有限的内存并提升任务的精度和准确率。

这里给我们的启发是： 端侧的大语言模型、多模态模型以及端云协同系统，包括检索能力，是端侧AI智能体非常核心的关键技术。

4、谷歌FunSearch(学习增强智能体)

谷歌最新推出的FunSearch也是一个有趣的智能体应用，这是谷歌发表在Nature上的一篇文章，属于AI for Science的应用之一。它面临的问题是解决数学上限集发现的问题，即产生一个程序去发现更多的解。这个系统利用大模型通过温度设置产生不同答案的能力，对候选解题程序进行变异，然后通过评估筛选出好的变种，再通过聚类和进一步的变异、评估优化，实际上采用了遗传算法。这个系统确实在数极值组合的上限集问题上发现了一些人类未曾发现的结果，超过了人类最好的结果。

RLChina2024-AI Agent业界进展和发展趋势：简史、进展、难题、分级、趋势

正文

请到「今天看啥」查看全文