专栏名称: AI科技评论

点评学术，服务 AI ！

Harrison Chase：独创 AI 智能体「认知架构」，定制+极简加减法双驱动

AI科技评论 · 公众号 · 科技自媒体 · 2024-10-14 18:10

主要观点总结

本文讨论了智能体的认知架构、发展和用户界面设计等方面的话题。作者提到了定制化的认知架构在提高智能体性能方面的作用，以及如何从交互中学习以提高用户体验。他还提到了智能体管理方面的问题，以及如何通过产品提高智能体的可控性和可观察性。文章还涉及智能体在客户支持、编码等领域的应用，并讨论了未来的发展方向，包括自动化、智能化对软件开发人员和社会的影响等话题。

关键观点总结

正文

做定制化的认知架构，卖最好喝的“啤酒”。

作者丨刘洁

编辑丨岑峰

七月初，OpenAI 一篇博文让AI智能体的热潮席卷全球，业界对 AI 智能体的兴趣达到了一个新的高度。

智能体被视为大模型之后的又一热点。如在 AI 科技评论之前“具身智能十人谈”栏目对联想 CTO 芮勇的专访中，芮勇就认为， AI 发展的三部曲是从小模型到大模型，再到智能体 。这也是联想很早就关注到了 OpenAI，并快速跟进智能体研究的原因。

首先要搞明白一个问题：AI 智能体和我们熟悉的 AI 助手到底有什么不同？

表面上看，它们似乎都是帮助我们完成任务的工具。可 LangChain 的创始人 Harrison Chase 告诉我们，差别其实非常大。

AI 智能体指的是一个可以观察周遭环境并作出行动以达致目标的自主实体。通俗地说，就是一个具备 AI 能力的主体，可以是硬件也可以是软件，但一般都是软件程序，比如 LangChain。

LangChain 是一个开源框架，它的特别之处在于，你只需几行代码就可以快速搭建 AI 应用。这让创建复杂的智能体变得像搭积木一样简单。

Harrison Chase 创立了同名公司 LangChain 后，还陆续推出了 LangGraoh 和 LangSmith 用于解决更复杂的问题。

问题来了：这些智能体真的比 AI 助手更强大吗？

对此，Harrison Chase 的观点非常明确。他认为，AI 助手的核心在于辅助人类做决策，而智能体的核心则是自主行动，独立决策。

AI 助手就像副驾驶座上的帮手，帮你指路、拿东西；而 AI 智能体则是司机，它能够自己决定路线和速度，独立工作、处理一系列任务，完全不需要人类的每一步指引。

早期的 AI 智能体，比如 BabyAGI 和 AutoGPT，曾被质疑为换汤不换药的 AI 助手炒作版。因为它们的任务过于笼统、缺乏明确的规则，而实际上，企业真正需要的是能够根据具体需求定制的智能体。

而当今正火热的另一个概念“具身智能”，其本身也是一种有身体并支持物理交互的智能体。LangChain 智能体是旨在增强 LLM 能力的强大组件，使它们进行决策和采取行动，从而实现更高级的智能形式。

Harrison Chase 把从用户输入到输出，LLM 在调用中处理和流转信息的整个过程称为“认知架构”，并表示定制的认知架构能让 AI 智能体根据需求反复执行相同的任务，自动化大量繁琐的事务，实现用户操作的极致简化。

当然，AI 智能体能做的不止是流水线工作这么简单，在帮助用户给繁琐的工作做减法的同时，Harrison Chase 还特别关注用户体验，通过定制做了新的加法。

一方面，AI 智能体能和用户互动，给用户更贴心的私人定制服务，另一方面它们还能根据用户反馈不断优化，越用越智能，让用户可以完全放手丢给 AI 智能体去处理。

不过，对于那些目标是做通用认知架构的企业来说，没必要费心去提升认知架构的水平。只有那些盯准定制化需求的企业才需要像上个世纪的啤酒厂商一样，必须花大力气去搞自己的发电系统，才能让自己的啤酒味道更好。

目前，AI 智能体的研究仍然处于起步阶段，普林斯顿的研究表明，他们的智能体能解决 12.5%的 GitHub 问题，而依赖检索增强生成（RAG）时只有3.8%。

但是 Harrison Chase 非常看好 AI 智能体在客户支持和编码方面的潜力，尤其是编码。

在成熟的AI智能体的协助下，人人都能成为软件开发工程师。

一个不会写代码的设计师，只要告诉 AI 智能体想要一款特定功能的应用程序，智能体就能根据需求自动生成代码，把创意变成现实。这将彻底改变我们工作和创造的方式。

Harrison Chase 认为未来的工作，将不再被日常琐事困扰，而是让 AI 智能体承担繁重的任务，人们只需要专注于创造和享受生活。

在红杉资本的播客中，Harrison Chase 还综合技术和产品，分享了更多他关于 AI 智能体的训练、演变和未来前景的见解。

完整播客内容可以点击以下链接一键收听，AI 科技评论也对播客内容做了不改原意的精编处理，整理出文字版提供给大家：

https://www.sequoiacap.com/podcast/training-data-harrison-chase/

AI 智能体的发展

Sonya Huang ：智能体（Agent）是当前大家都非常关注的话题。自从 LLM（大语言模型）兴起以来，你一直在智能体构建的前沿。能给我们介绍一下智能体的定义吗？

Harrison Chase ：要定义智能体其实有些棘手。人们可能对它有不同的理解，这很正常，因为我们还处在 LLM 和智能体相关发展的早期阶段。

我个人的理解是，智能体是由LLM决定应用程序的控制流程。

举个例子，在传统的 RAG（检索增强生成）链中，流程是预设的：生成搜索查询、检索文档、生成答案，最后反馈给用户。

而智能体则将 LLM 放在中心，让它自主决定下一步的行动。有时它会发起搜索，有时直接回复用户，甚至可能多次查询，直到得出答案。LLM 能动态决定整个流程。

工具的使用也是智能体的重要特征。当 LLM 决定行动时，它通常会调用不同的工具来实现。此外，记忆也是关键，当 LLM 确定下一步时，它需要记住之前的操作。

总的来说，智能体的核心就是让 LLM 决定应用程序的控制流程。

Pat Grady ：你提到的很多都和“决策”有关，我想知道智能体是否就是一种行动方式？这两者是否相辅相成？智能体的行为是否更偏向某一方面？

Harrison Chase ：我认为它们确实是相辅相成的。智能体的很多行为本质上是在决定如何采取行动，而这个过程的难点在于找到正确的行动。因此，解决“决策”问题通常也能解决“行动”问题。一旦决策确定，LLM 系统就会执行相应的行动并反馈结果。

Sonya Huang ：智能体与链的主要区别在于 LLM 自主决定下一步，而不是预先设定步骤。这种区分是否准确？

Harrison Chase ：是的，这是一个很好的描述。不过，实际上有不同的层次。比如，简单的路由器可能做的是链中的路径选择，虽然 LLM 依然在决策，但这只是基础应用。而完全自主的智能体则是另一种极端。整体来看，确实存在一些细微的差别和灰色地带。

Sonya Huang ：明白了，智能体的范围从部分控制到完全自主决策都有，这很有趣。你觉得 LangChain 在智能体生态系统中扮演了什么角色？

Harrison Chase ：我们现在的重点是让人们更容易创建介于这两者之间的智能体。我们发现，最有效的智能体通常位于这个中间地带。尽管完全自主的智能体吸引人，且已有原型，但它们常常偏离预期。因此，我们的工作集中在“编排层”，以便构建灵活但仍有一定约束的智能体。如果你想深入了解，我们可以再讨论。但总的来说，LangChain 的愿景是成为一个编排框架。

Sonya Huang ：我记得在2023年3月左右，像 BabyAGI 和 AutoGPT 这样的自主智能体引起了很多关注，但它们的首批迭代似乎没有达到人们的期望。你认为原因是什么？现在智能体的炒作周期处于什么阶段？

Harrison Chase ：确实，AutoGPT 的出现开启了智能体的炒作周期，尤其是在 GitHub 上受欢迎。这个热潮从 2023 年春季持续到夏季，之后稍微降温。到了 2024 年，我们开始看到一些实用的应用，比如 LangChain 与 Elastic 的合作，推出了 Elastic Assistant 和 Elastic Agent 等生产级智能体。这些应用，如 Klarna 的客户支持机器人，引发了更多讨论。此外，Devon 和 Cira 等公司也在智能体领域进行尝试。

关于 AutoGPT 未能完全成功的原因，我认为主要是它们过于笼统，缺乏明确的任务和规则。企业希望智能体能完成更具体的工作，而不仅仅是模糊的自主智能体。因此，我们看到的智能体更多像是定制的认知架构，尽管灵活，但需要更多的工程投入和开发时间，这也是这些系统一年前还未出现的原因。

定制认知框架

Sonya Huang ：你前面提到了“认知架构”，我很喜欢你对它的思考方式。能否解释一下，什么是认知架构？我们应该如何理解它？有没有一个合适的思维框架？

Harrison Chase ：是的，我理解的认知架构，基本上是指在使用大语言模型（LLM）时，你的系统架构是什么样的。

如果你正在构建一个应用，其中涉及多个算法步骤，你是如何利用这些算法的？你是否用它们生成最终答案？还是用它们在不同任务间进行选择？是否有非常复杂的分支，甚至包含多个循环？

这些都是认知架构的不同表现形式。认知架构其实就是指，从用户输入到输出，LLM在调用过程中如何处理和流转信息。

尤其是在把智能体投入生产时，我们发现流程通常是根据具体应用需求而定制的。

例如，某个应用可能需要先进行一些特定的检查，再执行几个步骤，每个步骤又可能包含循环或分支。这就像是你在画一张流程图，而这种定制化的流程越来越普遍，因为人们希望智能体在应用中更可控。

我之所以称它为“认知架构”，是因为LLM的核心优势在于它的推理能力，你可以通过编码这种认知心理模型，将其变成软件系统中的某种架构。

Pat Grady ：你觉得这是未来的发展方向吗？我听到了两点，一是非常定制化，二是它听起来更像是硬编码的。你认为这是我们当前的方向，还是暂时的解决方案？未来会出现更优雅的架构，或者一系列标准化的参考架构吗？

Harrison Chase ：这是个很好的问题，我花了很多时间在思考这个。我认为，在极端情况下，如果模型在规划上非常强大且可靠，你可能只需要一个简单的 for 循环，反复调用 LLM 来决定下一步该做什么，然后执行操作并再次循环。

所有你希望模型遵循的约束都可以通过提示传达，而模型也会按你预期的方式执行。尽管我相信模型在推理和规划方面会越来越好，但我不认为它们会完全取代手动构建的架构。

首先是效率问题。如果你知道某个步骤总是需要在另一步骤之后执行，那么你可以直接把它们按顺序安排好。

其次是可靠性，尤其是在企业环境中，人们需要一定的保障，确保关键步骤按预期执行。

因此，我认为虽然构建这些架构可能会变得更容易，但它们仍然会有一定复杂性。

从架构的角度看，你可以认为“在循环中运行 LLM”是一种非常简单但通用的认知架构。而我们在实际生产中看到的更多是定制化、复杂的架构。

我觉得随着时间推移，通用规划和反思功能会被直接训练到模型中，但那些需要高度定制的规划、反思和控制功能依然不会被取代。

Sonya Huang ：可以这样理解：LLM可以完成通用的智能体推理，但在具体领域中，你还需要定制化的推理能力。这些是无法完全内置到通用模型中的。

Harrison Chase ：完全正确。自定义认知架构的核心思想在于，你让人类来承担规划责任，而不是完全依赖 LLM。

尽管某些规划功能可能会越来越接近模型和提示，但很多任务的规划过程依然复杂，无法完全自动化。我们还需要时间，才能发展出高度可靠、即插即用的解决方案。

用户体验设计

Sonya Huang ：我相信智能体将成为人工智能的新潮流，我们正从 AI 助手转向 AI 智能体。你同意吗？为什么？

Harrison Chase ：我基本同意。智能体的潜力在于，传统的 AI 助手依赖人类输入，任务能力有限。而智能体能更独立地行动，偶尔与用户互动，这使它们能自主处理更多任务。

但赋予它们更多自主性也带来了风险，例如可能出现偏差或错误。因此，找到自主性与可靠性之间的平衡将是一个重要的挑战。

Pat Grady ：你在 AI Ascent 上提到了用户体验。通常，我们认为它与架构位于光谱的两端——架构是幕后工作，而用户体验是前端展示。

但现在似乎情况有所不同，用户体验实际上可以影响架构的有效性。比如，当出现问题时，你可以像 Devin 一样，回溯到规划过程中出错的地方。

你能谈谈用户体验在智能体或 LLM 中的重要性吗？另外，你觉得有哪些有趣的发展？

Harrison Chase ：用户体验在当前非常重要，因为 LLM 并不完美，时常出错。聊天模式特别有效，它允许用户实时查看模型的反应，并及时纠正错误或追问细节。虽然这种模式已成为主流，但它的局限在于依然需要用户的持续反馈，更多是一种“助手”的体验。

如果能减少用户的介入，让 AI 自动完成更多任务，将带来巨大的变革。

不过，如何在自动化和用户参与之间找到平衡是个难题。一些有趣的想法正在尝试解决这个问题。例如，创建一个智能体透明度列表，让用户清晰了解AI执行的每一步。如果某个步骤出错，用户可以直接回溯并调整指令。

另一个创新的想法是引入“收件箱”体验，让智能体在后台并行运行，当需要人类帮助时，它可以像发邮件一样提醒用户，这样用户就可以在合适的时机介入，而不必全程监控。

在协作方面，智能体可以先起草文档，用户作为审阅者提供反馈。实时互动的体验也很吸引人。

例如，用户在评论时，智能体能够立即修复问题，就像在 Google Docs 中一样。这种互动方式能够增强用户体验，使AI真正成为高效的工作伙伴。

Pat Grady ：你提到的关于智能体如何从交互中学习，真的很有意思。如果我每次都要重复给同一个反馈，那体验就会变得很糟糕，对吧？系统该如何提升这种反馈机制？

Harrison Chase ：确实！如果我们不断给智能体相同的反馈，而它却不改进，那无疑会让人沮丧。因此，系统的架构需要能够从这些反馈中学习，不仅仅是修复当前的问题，还能积累经验，避免将来再犯。

这方面的进展虽然还处于早期阶段，但我们已经花了很多时间在思考这些问题上，并相信随着技术的进步，智能体会变得越来越“聪明”，从而带来更流畅的用户体验。

让啤酒变得更好

Sonya Huang ：在过去六个月，智能体领域取得了显著进展。普林斯顿的研究表明，他们的智能体能解决 12.5% 的 GitHub 问题，而依赖检索增强生成（RAG）时只有 3.8%。

尽管有所进步，但 12.5% 仍不足以取代实习生。你认为智能体的发展到了哪个阶段？它们能否在面向客户的环境中可靠部署？

Harrison Chase ：是的，SWE 智能体相对通用，可以处理多种 GitHub 问题。定制智能体的可靠性虽然没有达到“99.999%”，但已经足够在生产环境中使用。例如，Elastic 的智能体已在多个项目中应用。虽然我没有具体的可靠性数据，但它们足够可靠，可以上线。通用智能体面临更大挑战，需要更长的上下文窗口和更好的推理能力才能广泛应用。

Sonya Huang ：你提到过思路链（Chain of Thought）等技术，能分享认知架构对智能体性能的影响吗？你认为最有前途的认知架构是什么？

Harrison Chase ：AutoGPT 等项目没有成功的一个原因是早期 LLM 无法明确推理第一步该做什么。思路链等技术为模型提供了更好的推理空间。

姚舜宇的 ReAct 论文是第一个专门用于智能体的认知架构之一。ReAct 结合了推理和行动，让模型不仅执行动作，还能进行推理，从而提高其能力。现在，随着模型训练的深入，显式推理步骤变得不再那么必要。

当前主要挑战在于长期规划和执行，模型在这方面表现不佳，需要认知架构帮助生成计划并逐步执行。反思则帮助判断任务是否完成。

总的来说，规划和推理是目前最重要的通用认知架构，未来随着训练改进，这些问题将得到更好的解决。

Sonya Huang ：你提到杰夫·贝索斯说过“专注于让你的啤酒更好”。这让我想到早期许多啤酒厂选择自己发电。今天很多公司面临类似问题：是否需要控制认知架构来提升业务？构建和优化这些架构真的能“让你的啤酒更好”，还是应该放弃控制，专注于用户界面和产品开发？

Harrison Chase ：这取决于你构建的认知架构类型。如果是通用架构，可能不会直接提升业务。未来，模型提供商会专注于通用的规划和认知架构，企业可以直接使用这些来解决问题。但如果是高度定制的架构，反映了特定的业务流程或最佳实践，那它确实能提升业务，尤其在依赖这些应用的领域。

定制的业务逻辑和认知模型可以显著提高系统表现，个性化后更加精确和高效。尽管用户体验和界面设计依然重要，但定制化智能体显然是企业的一个重要优势。我认为通用和定制之间有很大的区别。

编排和可观察性

LangSmith and LangGraph

Sonya Huang： 我们能聊聊 LangSmith 和 LangGraph 吗？你们解决了哪些问题？特别是在智能体管理方面，你们的产品如何帮助人们更好地管理状态和提高智能体的可控性？

Harrison Chase ：当然可以。LangChain 的推出解决了关键问题，尤其是标准化各个组件的接口。这让我们能够与多种模型、向量存储、工具和数据库进行广泛集成，这也是LangChain受欢迎的重要原因。

LangChain 还提供了一系列高级接口，使用户可以轻松使用功能，如 RAG（检索增强生成）和 SQL 问答，同时动态构建链的运行时间也较短。我们把这些“链”视为有向无环图（DAG），这一点很重要。

LangGraph 解决了与可定制和可控的循环元素相关的问题。循环引入了新挑战，比如设计持久化层，以便恢复状态并让循环在后台异步运行。因此，我们关注如何有效部署长期、循环和人机交互的应用程序。

关于 LangSmith，自公司成立以来我们就一直在研究它，专注于 LLM 应用的可观察性和测试。

我们发现，LLM 作为核心时，其固有的不确定性使得可观察性和测试尤为重要，以确保能自信地投入生产。LangSmith 的设计使其能够与 LangChain 无缝配合。

此外，LangSmith 还提供了提示中心，帮助用户管理和手动审查提示。这在整个过程中显得尤其重要，因为我们需要明确 LLM 输出的新内容。

可观察性是 LLM 的显著特征，而测试的复杂性也在增加。因此，我们希望人们能更频繁地审查内容，而不仅仅局限于传统的软件测试。LangSmith 提供的工具和路由正是为了解决这些挑战。

可观察性

Pat Grady ：你是否有一种启发式的方法来评估现有的可观察性、测试和填空，看看它们在多大程度上适用于 LLM？哪些特征使得现有 LLM 与之前的模型有显著不同，以至于你们需要开发新产品、新架构或新方法？

Harrison Chase ：是的，这确实是一个值得深入思考的问题。尤其是在可观察性和测试方面，LLM 的复杂性让我们必须创新。虽然像 Datadog 这样的工具可以很好地监控，但要深入分析多步骤的应用程序，LangSmith 能提供更精细的痕迹分析，帮助更好地调试和应对 LLM 的不确定性。

测试方面也很有趣。在传统软件测试中，通常只关注结果是否通过，而不进行成对比较。然而，LLM 评估中，像 LLMSYS 这种工具允许并排比较两个模型，这种方式在 LLM 测试中尤为关键。

另一个挑战是，LLM测试中你不会总是有100%的通过率，因此跟踪进展非常重要，确保你在不断进步，而不是退步。相比传统测试的通过/失败判断，LLM的测试需要更细致的跟踪和分析。

最后，人类的参与至关重要。尽管我们希望系统自动化运行，但人工干预往往更可靠。这和软件测试中简单的等式验证非常不同，我们需要引入人类判断，使测试更加精确且灵活。