专栏名称: Dots机构投资者社区

机构投资者组成的社区，深度点评财经事件

吴恩达演讲全文：AI Agent工作流的趋势

Dots机构投资者社区 · 公众号 · · 2025-01-22 08:15

正文

本文转自微信公众号“焉知汽车”，作者：焉知汽车。

来源 | BLUES、智猩猩

本文是吴恩达今年3月的演讲，题目为“Agentic Reasoning”，对AI Agent工作流的趋势进行了讲解。

本文对AI Agent翻译为了AI代理。

本文只做学术/技术分享，如有侵权，联系删文。

吴恩达指出，随着 AI 技术的发展， AI 代理被视为一个能显著提升软件开发效率和质量的工具。

他通过展示 AI 代理如何在主动型工作流中超越单独模型的局限，以及多代理系统如何通过协作来解决复杂问题，强化了这一观点。

他认为，在未来，我们将看到 AI 代理在各种工作流程中发挥更大的作用，并且这些代理的性能和应用范围将不断扩大。

对此，人们需要学会重新设定与 AI 合作的期望，并充分利用 AI 代理快速迭代的优势。

吴恩达还预测了 AI 工作流程的扩展，并讨论了人类需要适应与 AI 代理交互的新方式。

吴恩达介绍了 AI 智能代理工作流的四种设计模式：

反思（Reflection）：LLM 检查自己的工作，以提出改进方法。
工具使用（Tool use）：LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。
规划（Planning）：LLM 提出并执行一个多步骤计划来实现目标（例如，撰写论文大纲、进行在线研究，然后撰写草稿......）。
多智能体协作（Multi-agent collaboration）：多个 AI 智能代理一起工作，分配任务并讨论和辩论想法，以提出比单个智能体更好的解决方案。

关键结论及其论据支撑：

结论 1: 主动型工作流中的AI代理可以产生比传统工作流更好的结果。

论据 :

吴恩达个人实际操作时观察到的效果出人意料。

GPT-3.5 在主动型工作流中表现得甚至比 GPT-4 还好，尽管 GPT-4 在零次提示下有更高的成功率。

结论 2: 多代理协作是提高AI性能的有效策略。

论据 :

设计模式包括代码代理和批判代理的合作，这种模式易于实施且通用。

实验显示多代理通过协作编写代码、测试和迭代可以生成复杂的程序。

结论 3: AI代理的运用将扩大人工智能可执行任务的范围。

论据 :

吴恩达期待由于代理工作流程的存在，今年 AI 能完成的任务集会大幅拓展。

已经存在的不同设计模式（反思、工具使用、规划和多代理协作）表明， AI 代理的应用正变得越来越精细和广泛。

结论 4: 快速迭代在AI代理的使用中是关键，甚至可能比慢速迭代的更高质量模型结果更好。

论据 :

LLM 快速生成 Token 对于多代理工作流程至关重要，因为需要不断迭代。

即使是质量较低的 LLM ，只要迭代速度足够快，也可能产生比慢速生成 Token 的更高质量模型更好的结果。

结论 5: 人们需要适应耐心等待 AI 代理完成任务的方式。

论据 :

目前人们习惯于搜索引擎式的即时回应，但与 AI 代理的合作需要时间来产生最佳结果。

这种适应是提高与 AI 代理合作效率的必要步骤。

下面是演讲全文：

《Agentic Reasoning》

我很期待与大家分享我对 AI 代理的看法，这是一个我认为所有从事 AI 开发的人都应该关注的令人兴奋的趋势，同时我也对其他的内容感到兴奋。

接下来的演示会是怎样呢？现在我们大多数人使用 AI 代理的方式就像一个小企业那样，带着一种非主动性的工作流程，你输入一个问题它就生成答案。这有点像你让一个人写一篇论文，然后说“请坐到键盘前，从头到尾打出这篇论文，而且不许用退格键”。

尽管这很难，但 LLM 实际上做得相当好。相比之下，在主动型工作流中，情况可能是这样的： AI 会说，“写一个论文提纲。你自己需要做进一步的调研吗？那我们开始吧。然后写第一稿，再读你自己的第一稿，考虑哪些部分需要修改，然后修改你的草稿，如此反复。”

这种工作流程更加迭代，你可能需要 AI 做一些思考，然后修改文章，再做一些思考，这个过程重复多次。而许多人没有意识到的是，这实际上能得到显著更好的结果。

我自己实际操作这些主动型工作流时，也非常惊讶它们的效果。

除非你想要一个案例研究，我的团队使用一种名为“人类智能基准测试”的代码标准来分析数据，这个标准是由 OpenAI 几年前发布的。

这里面包含了编码问题，比如“给定一个非空整数列表，返回所有奇数元素或未偶数位置上的元素的总和”。结果是你的代码片段就像这样。

今天我们很多人会使用零次提示，意思是我们告诉 AI “写代码”并让它在第一部分运行，比如谁调用了代码，我知道人类不会那样写代码，我们应该把代码打出来。也许你可以做到，但我做不到。事实证明，如果你使用 GPT-3.5 零次提示，它的成功率是 48% ，而 GPT-4 的表现则好得多，成功率达到 67.7% 。

但如果你采用一个主动型工作流环绕 GPT-3.5 ，实际上它甚至比 GPT-4 做得还好。如果你将这种类型的工作流环绕在 GPT-4 周围，它也表现得很好。

你会注意到，在主动型工作流中 GPT-3.5 实际上比 GPT-4 的表现更好。我认为这意味着非常重要的后果，我认为这将改变我们所有人构建应用程序的方法。所以“代理”这个术语被广泛地讨论，许多咨询报告都在谈论 AI 的未来等等。

我想更具体地与大家分享我观察到的广泛设计模式和代理。这是一个非常混乱、无序的领域，有大量的研究和开源项目。有很多事情正在发生，但我试图将其归类得更具体一些。经历了代理反思这个工具，我认为我们中的许多人都在使用它，它确实有效。我认为这是公认的技术。当我使用它们的时候，我几乎总能让它们正常工作。

计划和多代理协作，我认为这些更是新兴的内容。当我使用它们时，有时我会对它们的效果感到震惊。但至少在目前，我感觉我不能总是可靠地让它们工作。

所以让我通过几张幻灯片来介绍这四种设计模式。如果你们中的一些人回去让你们的工程师使用它们，我认为你们很快就会获得生产力的提升。

所以关于反思，这里有一个例子。假设我要求一个系统，请为我编写一个特定任务的代码。然后我们有一个代码代理，只是一个你提示编写代码的 LLM ，比如定义一个任务函数。

自我反思的一个例子是，如果你随后用类似的提示向 LLM 提问，例如这里有一段代码是为一个任务准备的，然后将刚刚生成的完全相同的代码反馈给它，并仔细检查代码的正确性和效率。

对他们来说，这是一个很好的建设性反馈。结果表明，同一个 LLM 在你提示它编写代码后，可能会发现第五行的问题并修复它。如果你现在拿它自己的反馈提示它，它可能会生成一个第二版的代码，可能比第一版的代码工作得更好，虽然不能保证，但这足够经常发生，值得在很多应用程序中尝试。

为了预示即将使用的内容。如果你让它运行单元测试，如果它没通过单元测试，那你就问它为什么没通过单元测试？

进行这样的对话。我们将找出为什么没通过单元测试，所以尝试改变一些东西，最终提出解决方案。

顺便说一句，对于那些想要了解更多关于这些技术的人，我对每个部分都有很高的评价，在底部有一个推荐阅读部分，整个图表是更多参考资料。

吴恩达演讲全文：AI Agent工作流的趋势

正文

请到「今天看啥」查看全文