专栏名称: 知识图谱科技
务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱,大语言模型GenAI)以及医药大健康、工业等行业落地案例,产品市场进展,创业商业化等
目录
相关文章推荐
文学音乐与朗诵  ·  歌曲一情痴文字迷 ·  昨天  
艾邦高分子  ·  【邀请函】2025可持续环保材料论坛(5月2 ... ·  2 天前  
艾邦高分子  ·  西班牙金发环保正式投产! ·  2 天前  
高分子科学前沿  ·  普渡大学窦乐添最新Nature大子刊:全碳主 ... ·  2 天前  
高分子科技  ·  封伟教授团队 Adv. ... ·  3 天前  
51好读  ›  专栏  ›  知识图谱科技

超越机器人:人工智能智能体如何推动企业自动化的下一个浪潮

知识图谱科技  · 公众号  ·  · 2024-12-01 12:20

正文

摘要

人工智能智能体与传统的机器人流程自动化(RPA)机器人相比,正在彻底改变企业自动化。 它们作为决策引擎,可以处理复杂的多步骤流程,适应新情况并做出智能决策,这标志着超越基于规则的自动化的显著进展。

关键要点:

* 人工智能智能体的出现是对机器人流程自动化(RPA)的重要提升,能够实现端到端的流程自动化。

* 与RPA不同,人工智能智能体能够处理非结构化数据,适应变化的条件,并进行复杂推理。

* 人工智能智能体市场正在演变,解决方案从高度专业化的垂直代理到更具通用性的水平平台不等。

* 企业智能体具有广泛适用性,但通常需要先定义的操作和边界条件(“轨道上的代理”)。

* 浏览器智能体提供了更高的通用性,但在一致性和可靠性方面面临挑战。

* 垂直智能体在自动化手动的、程序驱动的流程方面表现出色,这些流程通常外包给业务流程外包(BPO)公司。

* 虽然生成式人工智能解决方案本身并非智能体,但在语义搜索和数据转换等领域提供了竞争力的能力。

源:

https://menlovc.com/perspective/beyond-bots-how-ai-agents-are-driving-the-next-wave-of-enterprise-automation/

正文

经济中的每一项工作都可以被视为一组任务,由人类和机器共享。多年来,软件承担了越来越多的此类任务,但即使在今天,人类仍然拥有绝大多数业务流程。在每个功能中,员工成本都使软件支出相形见绌。

AI 代理承诺果断地改变这种工作平衡。与主要处理可以自动执行的低级顺序任务的前几代软件不同,新的认知架构使代理能够动态地自动化端到端流程。这不仅仅是可以读取和写入的 AI,而且是可以决定应用程序逻辑流并代表您执行操作的 AI。

它们代表了当今企业中 LLM 的最大机会。在另一篇文章中,我们介绍了这些新的 “代理” 是什么以及使它们成为可能的设计模式。在这里,我们将探讨如何在企业中应用它们,以开创企业自动化的新时代。

RPA Redux?

If it feels like we’ve heard this story before, it’s because, for the past decade, companies like UiPath and Zapier were selling rhyming visions under the banner of “bot automation.”
如果感觉我们以前听说过这个故事,那是因为在过去十年中,像 UiPath 和 Zapier 这样的公司一直在打着“机器人自动化”的旗帜销售押韵的愿景。

UiPath 是第一个。这家机器人流程自动化 (RPA) 巨头的核心业务是屏幕抓取和 GUI 自动化,使“机器人”能够记录用户正在做什么,然后模仿顺序步骤来自动化流程,例如从文档中提取信息、移动文件夹、填写表格和更新数据库。

后来,像 Zapier 这样的 iPaaS 提供商出现了一种更轻量级的“API 自动化”方法,用于生产力用例。该平台使用预先构建的 API 集成和 Webhook 来提供更稳定的自动化,尽管该方法将公司的范围限制在 Web 应用程序自动化上,而 UiPath 能够跨不同软件(包括那些可能不支持 API 的软件)自动执行流程。

UiPath 和 Zapier 证明了可组合、基于规则的水平自动化平台市场,以解决部门或行业特定软件系统内部和之间存在的企业流程长尾问题。但是,随着企业扩展其基于机器人的自动化,这些传统架构的功能与其承诺的自主性之间的差距开始显现,尤其是在以下方面:

  • (仍然)有很多人力和体力劳动。尽管所有关于机器人和自动化的讨论,但建立和维护自动化的过程仍然是痛苦的手动过程。事实上,UiPath 每赚一美元,就有 7 美元流向安永等实施和咨询合作伙伴,这会导致漫长、昂贵的部署和维护周期。

  • 脆弱的 UI 自动化或有限的 API 集成。当软件 UI 发生变化时,UI 自动化通常会中断,而 API 更稳定,但提供的集成要少得多,尤其是与旧版或本地软件的集成。

  • 无法处理非结构化数据。非结构化和半结构化数据占企业数据的 80%,但基于序列的自动化无法智能地处理几乎所有这些数据。Hyperscience 和 Ocrolus 等智能文档处理 (IDP) 解决方案试图在这方面取得进展,但即使对于简单的“提取和转换”文档处理用例,也难以处理边缘情况和异常处理。

此外,传统的 RPA 和 iPaaS 解决方案继续被束缚在其确定性架构中,即使它们试图整合 LLM 也是如此。如今,UiPath 的 AI 解决方案 Autopilot 和 Zapier 的 AI Actions 都只为子代理设计模式提供 LLM,例如 (1) 文本到操作,或 (2) 用于语义搜索、合成或一次性生成的节点。

这些 AI 功能当然可以很强大。它们支持业务功能,而不是 IT 部门对自动化规则手册的所有权,允许通过视觉转换器(而不是 OCR)进行更强大的对象检测和识别,并且通过 RAG 提供强大的数据提取和转换。但他们仍然错过了流程自动化中 LLM 更具变革性的用例,我们接下来将探讨这些用例。

AI 代理作为决策引擎

代理从根本上不同。它们作为决策引擎位于应用程序控制流的中心,与当今 RPA 机器人的硬编码逻辑形成鲜明对比,甚至与定义生成式 AI 革命第一波的 RAG 应用程序形成鲜明对比。它们首次实现了适应性、多步骤操作、复杂推理和强大的异常处理。

让我们在发票对帐示例中说明其含义。以下是将新发票 PDF 与公司总账匹配的简化流程图(类似于实施工程师必须为 RPA 进行可视化建模的流程图):

显然,工作流的复杂性很快就会变得笨拙,几乎不可能考虑所有相关的边缘情况和异常,即使在前三个决策集中也是如此。通常情况下,负责自动执行此工作流程的 RPA 机器人会出错,并将部分匹配或缺失的行项目上报给人工,这也许可以解释为什么当今大多数企业仍然每月配备数百名员工来完成这项任务,而不是自动化高度手动的流程。

但是,当应用于相同的工作流程时,代理的性能要高得多,并且能够:

  • 适应新情况。代理可以根据基本推理和相关业务环境智能地识别和适应新的数据源、发票格式、命名约定、账号,甚至政策变化,所有这些都无需重新编程或明确指定 SOP。

  • 启用多步骤操作。如果发票金额不匹配,代理可以执行多步骤调查,包括扫描供应商最近的电子邮件,以获取有关可能的价格变化的通知。

  • 展示复杂的推理。假设一家公司需要将来自国际供应商的发票与其分类账进行核对。此流程涉及多个考虑因素,包括发票货币、分类账货币、交易日期、汇率波动、跨境费用和银行费用,所有这些因素都必须一起检索和计算才能核对付款。代理能够提供这种类型的情报,而 RPA 代理可能只是将案件上报给人类。

  • 考虑不确定性。代理根据上下文线索(如匹配总订单值和历史发票时间和频率)对单个行项目的异常情况(如舍入错误或不可读的数字)具有很强的抵抗力。

AI 代理市场格局

特工也不仅仅是科幻小说。尽管该类别仍在兴起,但从初创公司到财富 500 强公司,企业已经在大规模购买和利用这些系统。

当前的代理态势可以使用两个关键维度进行可视化:

  • 领域特异性 :这包括从用于垂直领域(如医疗保健)或部门(如客户支持)的高度专业化代理到具有广泛、通用功能的水平代理平台。

  • LLM autonomy :这表示语言模型可以独立规划和指导应用程序逻辑的程度。

这两个因素构成了我们工作 AI 代理市场地图的轴线,如下所示。

在市场地图的右上角,最横向和最通用的代理包括:

  • 企业代理。可扩展的座席平台使企业能够通过自然语言 SOP 或规则手册(例如您提供给新员工的规则手册)跨多个职能和工作流程构建和管理座席。这些平台特别吸引寻求广泛适用的代理功能的集中式 IT 买家,而不是为每个业务部门提供单独的单点解决方案。例如,Sema4 的发票对账代理的核心处理功能可以应用于财务、采购和运营中的各种数据验证任务。

话虽如此,大多数企业代理都使用“代理在轨”架构,这要求代理基于一组特定于工作流的预定义操作、业务上下文和每个新流程的护栏。尽管其中一些数据基础设施可以在工作流之间共享,但这些平台的水平性质更多地来自堆叠用例,而不是类似人类的泛化能力。因此,该领域的一些参与者已经开始转向特定领域,以获得更大的产品和 GTM 杠杆(例如,Brevian 负责客户支持和安全,Ema 负责销售和支持)。

  • 浏览器代理。MultiOn、Induced 和 Twin 等 Web 代理代表了另一种类型的水平、可通用代理。大多数遵循“通用 AI 代理”设计,利用在各种软件界面及其底层代码库上训练的视觉转换器。这允许代理“理解”Web 组件、它们的功能和交互,以便自动化 Web 浏览、可视化 UI 操作和文本输入。







请到「今天看啥」查看全文