专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

同时，在最后探讨了未来的人机交互与智能体发展趋势：“ 如果人与机器的交互已经发展到通过语言即可实现，那么未来的想象空间将会非常广阔 ”。

视频链接：

https://www.bilibili.com/video/BV17wrpYKE4V

百宝箱地址：

https://tbox.alipay.com/pro-about

在不改变原意的情况下，Datawhale 进行了如下微调和整理。

大模型的发展历程

好的，大家好，我是王月凡，我现在是负责蚂蚁集团百宝箱的技术负责人，然后今天我稍微共享一下屏幕，今天由我来给大家带来关于 AI Agent 的一个分享。

大语言模型的发展历程可以追溯到20世纪90年代。当时的自然语言处理（NLP）领域主要研究特定任务，以统计学和概率学为基础，构建出模型来完成诸如词频统计和简单句法分析等基本任务。

到2013年，NLP 技术开始向任务无关的特征学习方向发展，代表性成果包括 Word2Vec 和神经概率语言模型（NPLM）。这些模型具备一定的上下文建模能力，可以解决如文本分类和信息抽取等特定任务。这一阶段的进步为后续的大语言模型奠定了基础。

2018年，大语言模型进入了一个新的发展阶段，演化为具有可迁移能力的任务求解器。这一阶段的核心成果是预训练语言模型的出现，代表性模型包括 BERT 和第一、第二代的 GPT。尽管早期的 GPT 模型（如 GPT-2 和 GPT-3）在性能上仍较为局限（它们主要聚焦于特定领域任务的解决），但预训练与微调相结合的技术路线已经展现出强大的迁移学习能力，显著提升了 NLP 系统处理复杂任务的能力。

进入2020年，以 GPT-3.5 和 GPT-4 为代表的通用大语言模型取得了突破。这些模型凭借更大规模的参数和训练数据，在能力上实现飞跃，推动了诸如 ChatGPT 和 Claude 等模型的广泛应用。这类模型以提示词（Prompt）为交互基础，能够解决多种任务，从文本生成到复杂问题求解，覆盖了更为广泛的应用场景。

而当下，ChatGPT、千问、Kimi 等国内外的主流大语言模型，已经成为具备强大底层能力的典型代表，为各类 AI Agent 提供了技术支撑。

AI Agent的出现是弥补大模型的短板

我们已经见识到了大语言模型带来的强大能力，确实可以解决各种各样的问题。那么，为什么 AI Agent 还会出现呢？

其实，这就涉及到 OpenAI 提出的通用人工智能（AGI）的五级标准。 AGI 的终极目标是创造一种能够像人类一样完成各种复杂任务，同时还能自然交流的通用人工智能。 根据这个定义，AGI 的发展被分成了五个等级。

目前我们使用的大语言模型，比如 ChatGPT，大多停留在第一级和第二级，可以处理许多知识性的问题，它们的能力主要在于接收指令，根据预训练时学到的知识进行推理并给出答案。这种工作方式虽然和人类的思考有些相似，但它们在许多需要更高认知能力的任务上仍然力有不逮，比如无法长期记住信息，缺乏持续的记忆能力；面对复杂任务，难以像人类那样分解成具体的步骤并逐步完成，更不用说像人类一样灵活地调用各种工具，并将它们组合起来完成目标。

相比之下，AI Agent ，也就是“智能体”，是通向更高级智能的关键一步。 通过引入行动能力、长期记忆机制和工具整合能力，AI Agent 能弥补当前大语言模型的短板，使得它们不仅能够回答问题，还可以真正去“做”事情。

更重要的是，AI Agent 能在处理复杂任务时展现出了接近人类的思维方式，比如记住上下文信息，制定详细计划，甚至协同多个工具完成目标。

可以说，AI Agent 的出现不仅让人工智能更接近人类的智能水平，也让它能够进入更多复杂而广泛的应用场景。

AI Agent=大模型+记忆+规划+工具使用

这张图从去年起就出现了，它非常清晰地定义了 AI Agent 本身。接下来我们聊聊智能体本身的几大核心能力。

首先，AI Agent 的基础能力来源于大语言模型。 大语言模型在语言理解与生成方面具有显著优势，但也存在一些局限，例如记忆能力的不足。

AI Agent 的目标之一，就是赋予模型更接近人类的记忆能力 ，包括短期记忆和长期记忆。通过这些能力，AI Agent 能够像人类一样记住曾经与用户的对话以及用户的个性化需求，进而提供更贴合实际的服务。

其次，规划能力（Planning）是 AI Agent 的核心能力之一。 智能体需要能够面对复杂问题，进行任务分解，将问题逐步具体化为多个可执行的子任务，并以“逐步完成”的方式解决每一项任务。这种能力使其不仅仅停留在静态的问答层面，而是能够动态处理复杂场景，展现出更强的任务执行能力。

此外，工具使用能力是 AI Agent 区别于传统大语言模型的重要特征之一。 这种能力包括调用互联网工具以获取实时信息，例如查询天气、检索搜索引擎中的最新数据，或者与现实生活中的服务系统对接，如下单外卖等功能。这种工具整合能力进一步扩展了 AI Agent 的应用场景，使其能够真正与现实世界产生连接，满足用户的实际需求。

综合来看，AI Agent 的能力已经超越了传统大语言模型的纯粹对话与问答功能，逐步发展为具备规划能力、记忆能力与工具整合能力的智能体。这一过程不仅丰富了 AI Agent 的技术模块，也为其定义提供了更加完整的框架。通过对复杂问题的拆解、对用户需求的记忆与动态响应，以及与现实工具的链接，AI Agent 正在向更加全面、智能和实用的方向发展，为用户提供更高水平的服务。

AI Agent的实际应用场景

AI Agent 在行业内已经具备多样化的落地场景。

首先是在高校领域。AI Agent 已经在高校场景中落地应用，且已能够与校园的服务能力相结合。它不仅可以简单地回答一些校园内的常见咨询问题，比如奖学金的申请流程、考试成绩的查询等，还能链接学校的服务系统，例如查询学生的课表、具体课程的上课地点等。这些应用充分结合了大模型的语言理解能力、工具使用能力以及对知识的管理能力。

第二个是景区场景的落地。AI Agent 与景区平台结合，可以为用户提供智能化的服务。它能够根据用户的自然语言描述完成购票流程，包括订单的自动生成、游玩日期的选择、入园门口的安排等。此外，还能基于用户的个性化需求推荐游玩路线，例如用户只想游览几个特定景点，AI Agent 能够设计出智能化的导航和推荐方案。这一能力显著提升了用户的游玩体验。

最后是图像生成场景。将 AI Agent 与 MidJourney、Stable Diffusion 等图像生成能力相结合，使其具备通过自然语言完成图像生成的能力。用户只需要通过对话框输入需求，智能体就能生成符合描述的图像。这一功能拓展了 AI Agent 的应用领域，为许多涉及图像设计和创意的行业带来了新的可能性。

总的来说，从高校到景区，再到图像生成，AI Agent 的能力正在迅速融入各行各业。今年（2024年）也是 AI 技能大规模与实际产业结合的重要年份。通过这些落地应用，AI Agent 正在为行业提供更智能化的服务和更高效的解决方案。

AI Agent的三大核心能力

了解了应用场景，我们再来看看AI Agent 的三大核心能力。

AI Agent 的第一大能力：知识库

首先是知识库能力。这一能力旨在增强 AI Agent 对于私有领域知识的支持和实时信息的获取与理解能力。了解大语言模型训练原理的朋友可能知道，大语言模型的底层是通过大规模的数据预训练形成的。这种训练方式虽然赋予了模型强大的语言生成和理解能力，但也带来了一个天然的局限：模型缺乏实时知识更新的能力。

同时，在实际行业落地中，很多行业需要依赖私域知识。例如，在景区场景中，有些景区的内部知识（如售票时间、每日游玩路线安排、开放与关闭的景点信息等）是通用大语言模型无法预先掌握的。这些信息对具体场景至关重要，但往往并不包含在大模型的预训练数据中，因此需要通过知识库能力进行补充和支持。

通过构建和集成行业私域知识库，AI Agent 就可以弥补大语言模型在实时性和领域专属知识方面的不足，显著提升其在特定场景中的适用性和理解能力。

因此，我们为大语言模型设计外挂知识库的主要目的是弥补其在私域知识和实时知识获取能力上的不足。在介绍知识库能力时，我们又不得不提到 RAG（Retrieval-Augmented Generation），这是一项核心技术，专门用于实现知识库的扩展功能。RAG 的具体过程分为三个步骤，旨在帮助大语言模型通过知识扩充生成更精准的回答。

Indexing（建立索引） 首先，我们需要对私域知识或时效性较强的知识建立索引。具体操作包括提取原始数据，将其通过 Embedding 模型进行编码并转化为向量表示。这些向量随后被存储在向量数据库中，形成一个便于快速检索的知识库结构。
Retrieval（知识检索） 当用户提出问题（Query）后，系统会通过向量相似度查询匹配相关知识。这个过程中，可以根据具体需求对用户的 Query 进行改写或直接使用原始问题进行检索。向量化的匹配方式确保了系统能够高效地找到与问题相关的知识内容。
Generation（生成回答） 检索到相关知识后，这些内容会以 prompt 的形式提供给大语言模型。大模型在结合私域知识和上下文信息后，生成一个总结性回复，最终为用户提供准确的答案。

通过这一完整的流程，RAG 技术实现了知识的检索增强生成。它不仅让大语言模型能够接入私域知识，还为其增加了实时获取知识的能力。通过 Indexing、Retrieval 和 Generation 这三个关键步骤，AI Agent 可以更高效地支持各种特定场景，提升回答的准确性和实用性。

刚刚提到的 RAG 的三个步骤其实可以通过一个更加直观的流程图来表达。这张图来源于几篇相关的论文，用具象的方式展示了 RAG 的具体工作机制。

文档处理与向量化存储流程的第一步是对文档（Document）进行处理。具体来说，需要将文档切分成若干小块（Chunk），然后通过 Embedding 模型对每个 Chunk 进行向量化处理。这些向量化的表示随后被存储在向量数据库中，为后续的检索奠定基础。
查询相似度召回当用户提出问题（Query）后，系统会通过向量数据库进行相似度检索，从中召回与用户问题相关的知识块。这一步通过 Embedding 模型生成的向量表示，计算问题与知识块之间的相似性，确保召回内容的相关性和准确性。
大语言模型生成回答检索到的相关知识块被传递给大语言模型，作为 Prompt 的一部分输入模型。大模型利用其语言理解和生成能力，将知识块与用户问题进行关联，通过推理和文本整理生成回答。这一过程中，大语言模型参考知识块与用户问题之间的相关性，从而生成包含私域支持的高质量回答。

通过这一机制，RAG 弥补了大语言模型缺乏私域知识和实时知识支持的不足，为用户提供更准确、更具针对性的答案。

Embedding 的向量化原理：

在 RAG 的流程中，Embedding 向量化技术是一个至关重要的环节。无论是文本、图像，还是单词，Embedding 的目标都是将这些内容转化为高维向量表示。这种向量表示捕捉了数据的语义信息，便于在向量数据库中存储和检索。

向量化的过程实际上是将文本、图像或单词作为一个对象，映射到一个由实数表示的固定向量空间中。可以将这个向量空间想象为一个三维空间，通过一定的向量模型计算完成映射。向量模型需要经过特殊训练，并依赖大量的文本语言和图像语言数据进行训练。训练完成后，可以将对应的字、文本或图像转化为向量空间中的向量。

模型训练的目的是为了让语义相似的对象在向量空间中的距离尽可能接近。例如，“king”和“queen”，“man”和“woman”之间存在相似性关系，可以通过向量运算表达。例如，“woman”可以通过“man + queen - king”得出。这表示“man”和“woman”语义相近，因此它们在向量空间中的距离也较近。“king”和“queen”同样因语义相似，在空间中的距离更短，而“queen”和“woman”之间的相似性也会导致它们距离较近。

可以理解为，将具体的文字或图像投射到向量空间后，通过模型的训练，使得语义相似的内容在向量空间中的距离更近，从而实现语义召回，检索出相似的内容。

对于图像也是类似的。以图中的两个 iPhone 手机图片为例，大模型通过对每个像素的理解和向量化处理，将这两张图片训练到相似的向量空间中，因此这两张 iPhone 手机的图片距离较近。而与球形物体的图片相比，这两张 iPhone 图片的距离明显更近。

在实际应用中，向量化过程会计算两个实体在向量空间的距离，以表示它们之间的相似度。例如，用户询问“北京大兴机场怎么去”，数据库中可能存有“大兴机场的路线”相关知识。此时，用户问题中的“大兴机场”与数据库中的“大兴机场的路线”在向量空间的距离会较近，因此可以通过相似度计算将相关知识召回。根据相似度距离排序，检索出与用户 Query 相关的知识，并通过大模型整合后，生成完整的回答。

这就是典型的 Embedding 向量空间在知识库和 RAG 技术中的应用，也是知识库中非常重要的一个核心技术。

谈到知识库，我们目前可以通过百宝箱实现外挂知识的接入。我们可以上传各种类型的文件，例如 Word 文档、Excel 表格、TXT 文件等，甚至能够与语雀实现打通。语雀作为一款高效的文档编辑和管理工具，其上已有的知识内容可以通过一键导入功能轻松加入知识库，作为大模型的外挂知识库，为智能体提供支持。

AI Agent 的第二大能力：工具调用

除了知识库之外，AI 技能的第二大能力是工具调用。智能体能够通过调用各种工具和 API 来扩展大语言模型的行动范围，使其不仅限于语言生成和理解，还可以实际参与到现实生活中。比如，智能体可以通过工具调用帮助用户预订景区门票、自动叫车，甚至点一杯星巴克。这种能力让 RAG 不仅能够检索和生成知识，还能够触及现实生活，为用户提供更加实用和全面的服务。

百宝箱的插件能力（短暂的介绍一下百宝箱～）

百宝箱提供了丰富的插件资源，并计划在未来集成支付宝的一方服务能力，例如发放优惠券、支付功能以及芝麻信用等。通过这些集成功能，百宝箱可以支持实时执行插件任务，自动调用外部服务，并实现诸如互联网接口查询、代码执行、绘图以及高德地图搜索等功能。这些插件的交互界面设计直观便捷，用户可以轻松上手操作。

AI Agent 的第三大能力：工作流

除了知识库和工具调用，AI Agent 的第三大核心能力是工作流。我们在前面提到，AI Agent 的运行需要输入一个 Prompt，结合外挂知识库，让 RAG 调用具体工具来连接现实场景和用户需求。然而，为了确保整个执行流程的可靠性和可控性，工作流的能力显得尤为重要。

通过工作流，我们可以将 AI Agent 的业务流程通过编排的方式串联起来，使其具备计划性和执行的可控性。目前，百宝箱已经提供了一套简单且高效的配置化工具，能够快速关联每个任务节点。例如，用户可以定义 RAG 的操作顺序：第一步完成知识检索，第二步调用特定工具，第三步生成并执行任务。通过这种方式，将复杂任务拆解为各个节点并逐步串联，实现任务的清晰、流畅且可控的执行。

这种配置化的工作流能力，不仅提高了 AI Agent 的灵活性，也让用户能够个性化地设计和控制任务执行的逻辑，确保每一步操作都符合预期，为复杂任务的高效执行提供了可靠保障。

（短暂的介绍一下百宝箱～） 百宝箱具备显著的特色，首先在模型能力方面，集成了多种主流大模型，包括百灵大模型、通义千问、质谱大模型，以及月之暗面模型。这些模型的集成为开发者提供了丰富的选择，能够满足不同场景的需求。

此外，产品还支持快速部署，仅需一分钟即可将开发完成的智能体发布到支付宝小程序，无需复杂的编码或开发工作。通过一键发布功能，用户可以立即在支付宝小程序上体验智能体的功能。这种高效、便捷的开发与发布流程，大大降低了使用门槛，使开发者能够更专注于创新和功能实现。

百宝箱还提供了便捷的图像训练功能，支持用户对图片进行风格化训练。通过上传少量的图片（约10~20张），系统会自动解析这些图片的特征和标签，完成模型的快速训练。训练完成后，用户即可使用生图能力，根据指定的图片风格生成具有相似风格效果的图像。这种简单高效的训练方式，大大降低了定制化图像生成的门槛，为用户提供了更多创意和个性化的可能性。

最新AI Agent万字综述分享！

正文

同时，在最后探讨了未来的人机交互与智能体发展趋势：“ 如果人与机器的交互已经发展到通过语言即可实现，那么未来的想象空间将会非常广阔 ”。

AI Agent 的第二大能力：工具调用

请到「今天看啥」查看全文

最新AI Agent万字综述分享！

正文

同时，在最后探讨了未来的人机交互与智能体发展趋势：“ 如果人与机器的交互已经发展到通过语言即可实现，那么未来的想象空间将会非常广阔 ”。

AI Agent 的第二大能力： 工具调用

请到「今天看啥」查看全文

AI Agent 的第二大能力：工具调用