专栏名称: 架构师
架构师云集,三高架构(高可用、高性能、高稳定)、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流,以及结合互联网技术的架构调整,大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。
目录
相关文章推荐
51好读  ›  专栏  ›  架构师

2025 AI Agent 技术栈全景图

架构师  · 公众号  ·  · 2025-03-18 22:35

正文

架构师(JiaGouX)
我们都是架构师!
架构未来,你来不来?






一、引言:从LLM到“有状态”智能体


自2022年下半年以来,随着ChatGPT等大型语言模型(LLM)的爆发,AI Agent(智能体)的概念得到重新定义:它不仅能理解自然语言,还能根据对话或上下文,自主调用外部工具执行任务。相较于只需一次性调用模型的传统对话机器人,AI Agent需要在 状态管理 (对话历史、长期记忆、执行阶段)和 安全执行 (工具调用、环境隔离)层面进行更复杂的工程化设计。
在2024年,大量针对“Agent化”应用的框架和平台如雨后春笋般涌现,涉及 本地推理引擎 向量数据库 通用/垂直工具库 沙箱与部署平台 以及 多智能体协作 等领域。到2025年,这一技术栈日趋成熟并开始在各行业深度落地,但随之出现新的挑战与机遇: 在保障安全、合规、可扩展的前提下,实现高效的Agent开发与部署




二、2025技术栈全景:分层与核心功能


为了更直观地理解,我们将AI Agent技术栈拆分为五大层次: 模型服务层、存储与记忆层、工具与库层、智能体框架层,以及智能体托管与服务层 。以下结合行业发展现状与图片(如“企业微信截图_1742305837801.png”中所示的生态分布),逐层展开分析。


1. 模型服务层(Model Serving)


核心定位 :为AI Agent提供“大脑”——即语言理解与推理能力。

  • 闭源API服务

    • OpenAI Anthropic 继续在通用模型(如GPT-5、Claude 4)领域保持领先,因其强大性能和便捷API,广受开发者青睐。

    • 金融、医疗等对 数据合规 隐私 要求更高的行业,逐渐催生闭源API厂商提供 私有化部署 方案。

  • 开源模型API

    • Together.AI Fireworks GroqCloud 等平台在2025年提供更经济的API访问,以及对开源权重(Llama系列等)的定制化托管。

    • 随着 硬件级优化 混合精度推理 的普及,API延迟与成本曲线进一步优化。

  • 本地推理引擎

    • Ollama、LM Studio 等工具在个人设备上运行中小型模型,大幅降低对云服务的依赖。

    • vLLM (GPU集群部署)成为生产级推理的热门选择, SGLang 则专注于小型团队的轻量化部署。

趋势解读 :模型服务层的选择不再只看性能与延迟,还需要考虑 成本、隐私 可控性 。本地推理与云端API正形成双向渗透,未来或许能看到“边缘-云协同”的混合部署形态,以满足不同行业的多样需求。


2. 存储与记忆层(Storage & Memory)

核心定位 :为Agent提供“长期记忆”与“知识库”,支撑上下文关联与检索增强生成(RAG)。

  • 向量数据库

    • Chroma、Weaviate、Pinecone、Qdrant、Milvus 等持续升级,多模态检索成为2025年新焦点(文本、图像、音频等)。

    • 随着Agent对历史数据的依赖增大,高效的相似度检索、数据清洗和向量维度管理成为企业选型关键。

  • 传统数据库向量扩展

    • Postgres 借助 pgvector 插件支持向量搜索, Neon Supabase 等无服务器方案让开发者可在兼容SQL生态的同时享受向量检索。

  • 记忆管理技术

    • MemGPT LangMem 等提供自动摘要与分层记忆功能,减少对上下文窗口的依赖;

    • 企业常用的 自定义记忆引擎 则更注重与内部CRM、ERP系统的整合。

场景解析

  • 知识密集型 :依赖向量数据库以保证高召回率与搜索速度;

  • 任务型对话 :多采用传统数据库配合 pgvector 内存管理工具 ,以跟踪任务执行状态、历史指令等。

趋势解读 :从“被动存储”到“主动记忆管理”,2025年的Agent项目大多结合了 向量数据库 记忆管理库 。这不仅提升了Agent的长期可用性,也为个性化推荐、协作式对话等高级功能铺平道路。


3. 工具与库层(Tooling & Libraries)

核心定位 :赋予Agent“动手”能力,使其能在对话之外,通过“工具调用”执行真实或虚拟世界的操作。

  • 通用工具库

    • Composio 等提供常见API(数据库读写、邮件发送、文档处理)的一站式封装,还能进行授权管理;

    • OpenAI定义的JSON Schema 几乎成为行业标准,确保跨框架、跨厂商的工具可互通。

  • 垂直专用工具

    • Browserbase 专注网页浏览,提供模拟登录、Cookie管理、反爬虫策略;

    • Exa 优化网络搜索,结合知识图谱和聚合算法提高精准度。

  • 安全沙箱与隔离

    • 在图片中(如E2B、Modal等)体现的沙箱平台可通过容器或TEE技术隔离工具执行环境,防范恶意代码或数据泄露。

误区澄清 :不少初学者以为“工具调用”由OpenAI或Anthropic等模型厂商负责,实际上 LLM仅决定“调用哪项工具以及参数” ,实际执行必须在用户自有环境(或第三方沙箱)完成。
趋势解读 :随着Agent在更多领域落地,各类垂直工具如财务、法律检索、生产调度等将不断涌现。工具商与Agent框架之间的标准化接口将进一步推动生态繁荣,同时也带来安全审计的新挑战。


4. 智能体框架(Framework & Orchestration)

核心定位 :Agent的“指挥中心”,负责编排模型调用、管理状态上下文、多Agent通信等。

  • 状态管理

    • LangChain 等采用序列化(JSON/字节流)方式保留上下文;

    • Letta crewAI 将状态持久化至数据库,支持直接查询历史对话,扩展性更强。

  • 多智能体协作

    • LangGraph 允许智能体之间互相调用,通过消息队列或直接调用进行协作;

    • AutoGen CrewAI 等引入“多Agent调度器”,可并行处理多个子任务场景。

  • 内存管理

    • 自我编辑记忆 (如MemGPT)和基于RAG的检索显著突破上下文窗口的限制;

    • phidata 强调递归摘要,防止海量历史堆叠导致重复计算或提示失效。

  • 开源兼容性

    • 为适配开源模型,框架需要自行实现“提示词自动修正”“输出格式校验”等功能;

    • 大多数框架开始兼容主流开源模型(Llama系列、Falcon等),以分散对闭源API的依赖。

选择建议

  1. 对话型场景 :更关注上下文窗口管理和多轮对话质量;

  2. 自动化工作流 :需要多Agent协作与复杂任务拆分能力;

  3. 企业内应用 :倾向于数据库持久化+内存管理,方便审计和数据分析。


5. 智能体托管与服务(Deployment & Observability)

核心定位 :从本地原型到生产化落地的关键环节,决定智能体能否大规模商用。

  • 部署挑战

    • 状态管理 :可能需要同时运行数百万个智能体实例,必须有可扩展的数据库和消息队列方案;

    • 工具安全 :在企业环境中,需严格的沙箱或Docker/Kubernetes容器来保护内部系统;

    • API标准化 :需要提供REST API、GraphQL或gRPC接口,支持负载均衡、速率限制、日志审计等生产级特性。

  • 框架与平台演进

    • LangChain langserve 可一键将本地Agent转换为云端API服务;

    • Letta CrewAI 开始内置生产化模块(数据库适配、日志监控、热更新),减少二次集成成本。

  • 可观察性

    • LangSmith arize 等观测工具可实时跟踪Agent决策过程、错误日志;

    • AgentOps.ai 注重安全审计和合规报告生成,尤其适用于金融、医疗等高敏感领域。

落地场景

  • 企业客服系统 :通过FastAPI或类似工具将Agent对外提供服务;

  • 智能办公助手 :Docker容器化部署在企业内网,读取机密文件需严格权限控制。

趋势解读 :2025年的Agent托管已不仅是“把脚本搬到云端”,而是一个 包含状态存储、工具执行沙箱、安全审计和高并发调度 的完整体系。“开箱即用”的生产化能力将成为框架和平台竞争的核心要素。








请到「今天看啥」查看全文