专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

性能提升在即！吴恩达谈 LLM 新方向：优化智能体工作流

人工智能学家 · 公众号 · AI · 2024-11-19 19:44

正文

来源：学术头条

翻译：阮文韵

原文链接：

https://www.deeplearning.ai/the-batch/issue-275/

【编者按】从为用户提供优质问答体验，到如今逐渐朝着适应智能体（agent）工作流优化发展，大语言模型（LLMs）正经历着深刻的变革。

日前，美国计算机科学家、斯坦福大学计算机科学系和电子工程系副教授、DeepLearning AI 创始人 吴恩达（Andrew Ng）深入剖析了这一转变趋势并分享了他关于智能体性能提升前景的见解。

在博客中，他描述了当前 LLMs 发展的新趋势，指出 LLMs 在智能体工作中的多样应用场景以及开发人员在不同应对策略下的具体实践情况，并对智能体未来发展做出了乐观展望。

学术头条在不改变原文大意的情况下，对发布内容做了简单的编译。内容如下：

亲爱的朋友们：

大语言模型（LLMs）通常是为回答人们的问题而优化的。 但现在的趋势是，对模型进行优化也是为了适应智能体工作流。 这将大大提高智能体性能！

继 ChatGPT 在回答问题方面取得巨大成功之后，大量 LLMs 的开发都集中在提供良好的消费者体验上。因此，LLMs 被微调为回答问题（“莎士比亚为什么写《麦克白》？”）或遵循人类提供的指令（“解释莎士比亚为什么写《麦克白》”）。大部分用于指令微调的数据集都会引导模型为人类编写的问题和指令提供更有帮助的回答，这些问题和指令就是人们可能会向面向消费者的 LLMs 提出的问题和指令，比如 ChatGPT、Claude 或 Gemini 的网络接口所提供的问题和指令。

但是， 智能体工作负载需要不同的行为。 人工智能软件不是直接为消费者生成响应，而是在迭代工作流中使用模型来反思自己的输出、使用工具、编写计划，并在多智能体环境中进行协作。主要的模型制造商也在不断优化模型，以便用于 AI 智能体。

以工具使用（或函数调用）为例。如果向 LLMs 询问当前的天气情况，它无法从训练数据中获得所需的信息。相反，它可能会生成一个 API 调用请求来获取该信息。甚至在 GPT-4 原生支持函数调用之前，应用程序开发人员就已经在使用 LLMs 生成函数调用了，不过是通过编写更复杂的提示（如 ReAct 提示的变体），告诉 LLMs 有哪些函数可用，然后让 LLMs 生成一个字符串，由单独的软件例程进行解析（或许使用正则表达式），以确定是否要调用某个函数。

在 GPT-4 之后，生成此类调用变得更加可靠，随后许多其他机型也原生支持函数调用。 如今，LLMs 可以决定调用函数来搜索用于检索增强生成（RAG）的信息、执行代码、发送电子邮件、在线下订单等。

最近，Anthropic 发布了一个能够在计算机上使用的模型版本，它可以使用鼠标点击和击键来操作计算机（通常是虚拟机）。我很喜欢玩这个演示。虽然其他团队一直在促使 LLMs 使用计算机来构建新一代 RPA（机器人流程自动化）应用，但一家主要 LLMs 提供商对 computer use 的原生支持是向前迈出的一大步。这将对许多开发人员有所帮助！

随着智能体工作流的成熟，我看到了以下几点：

首先，许多开发人员正在提示 LLMs 执行他们想要的智能体行为。这样可以进行快速、丰富的探索！
在数量少得多的情况下，那些正在开发非常有价值应用的开发人员会对 LLMs 进行微调，以便更可靠地执行特定的智能体功能。例如，尽管许多 LLMs 本机支持函数调用，但它们是将可用函数的描述作为输入，然后（希望）生成输出 tokens 来请求正确的函数调用。对于关键任务应用程序来说，生成正确的函数调用非常重要，针对应用程序的特定函数调用微调模型可显著提高可靠性。（但请避免过早优化！如今，我仍然看到很多团队在进行微调时，可能应该先花更多时间进行提示，然后再采取这种做法）。
最后，当工具使用或 computer use 等能力对许多开发人员来说很有价值时，主要的 LLMs 提供商就会直接在其模型中构建这些能力。尽管 OpenAI o1-preview 的高级推理功能可以帮助消费者，但我预计它对智能体推理和规划的作用会更大。

大多数 LLMs 已针对回答问题进行了优化，主要是为了提供良好的消费者体验，我们已经能够将它们“嫁接”到复杂的智能体工作流中，以构建有价值的应用。为支持智能体中的特定操作而构建 LLMs 的趋势将大大提高智能体性能。 我相信，在未来几年内，智能体性能将朝着这个方向大幅提升。

继续学习！

阅读最新前沿科技研 究报告，欢迎访 问欧米伽研究所的“未来知识库”

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

性能提升在即！吴恩达谈 LLM 新方向：优化智能体工作流

正文

请到「今天看啥」查看全文