专栏名称: 亿邦动力
电商第一媒体,每日发布独家电商重磅新闻。爆料、合作请发邮件至[email protected]
目录
相关文章推荐
你的Sneaker  ·  发售|2.6 线下线下发售信息!(AJ 1 ... ·  昨天  
电子商务研究中心  ·  商务部:2024全年网上零售额增长7.2% ... ·  昨天  
蛋先生工作室  ·  2025年2月4日最新蛋价(早报) ·  2 天前  
加国无忧  ·  加拿大Costco、Walmart、Lobl ... ·  3 天前  
加国无忧  ·  加拿大Costco、Walmart、Lobl ... ·  3 天前  
51好读  ›  专栏  ›  亿邦动力

2025年你需要一个AI智能体:既能当管家又能当牛马

亿邦动力  · 公众号  · 电商  · 2025-02-06 16:00

正文

大模型造神,Agent加冕。

文丨胡镤心

编辑丨张睿



2025年,智能体元年来了。

1月24日,OpenAI发布了首个AI Agent (AI智能体) 产品Operator,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能在后台自动完成。


此前,智谱在OpenDay上也演示过的Agent产品AutoGLM,根据语音口令,就能点外卖、建微信群、发微信红包,还能在不同APP之间来回跳转,比如在美团和饿了么之间比价,在手机电脑新能源汽车内同步使用。


Agent意味着大模型从Chat走向Act,更承载着AI行业的最大野望:掌握互联网入口,重塑流量分发格局。


只不过,由于当下部分网站访问受限、大模型黑盒依然存在、用户付费意愿未知,Agent将走向何方,蜂拥而至的Agent厂商又有谁能活到三年后,依然是未解之谜。


Agent发展超40年,经历了基于符号规则、统计学习、强化学习三种业务模式,前两者只能用于特定任务或特定能力的执行,本轮Agent基于大模型,具有知识记忆、长期规划、有效泛化等特点,可以通过与环境互动学习,也可以从少量样本中推理出最优策略。


据Markets and Markets预测,全球AI Agent市场将从2024年的51亿美元增长到2030年的471亿美元,年复合增长率达44.8%。


大模型学会了“网上冲浪”,一句话实现跨App全自动无人操作

Operator,被OpenAI定义为“能够为你执行网络任务的AI智能体”。

Operator的页面与ChatGPT大致相似,只是输入框的提示词从“我能帮您什么吗?”变为了“我能帮您做什么吗?”

图片来源:Open AI


在演示中,输入订餐要求,比如“在 Beretta餐厅订一桌两人位置,今晚 7 点。”Operator 会打开一个浏览器,开始搜索餐厅并着手预订。


过程中,如果Operator发现Beretta今晚 7 点没有位置后,它会主动询问用户是否选择“今晚 7 : 45”,当“今晚 7 : 45”这个时间点也无法预定后,它又提供了 6 : 15和 8 : 15两个预订时间供选择。

图片来源:Open AI


当用户想要购买日用品时,Operator可以找到购物网页,搜索商品-添加到购物车,搜索商品-添加到购物车,不断重复,直到买齐所有商品。最终结算时,Operator 会将操作权交还给用户,要求用户手动确认和支付。

Operator实际上是模拟人类在电脑上的操作行为,通过点击、滚动、输入等操作直接与网页进行交互,完成各种任务。简单来说,Operator 就像你的数字管家,可以浏览网页、填写表格、订购商品以及预订餐厅等,也可以代替我们进行一些繁琐甚至复杂的操作。

智谱的AutoGLM也是如此。

在2024 年11月29日的智谱OpenDay 上,智谱CEO张鹏演示了这样的情景:对手机说“面对面建群,密码是xxxx”以及“给xx群发红包”,AutoGLM自动点开微信,搜索并点开xx群,开始发红包。只不过在支付环节,仍然需要手动输入支付密码。

据介绍,AutoGLM 可以自主执行超过50 步的操作,也可以跨App执行任务,比如在美团和饿了么比价、在小红书搜攻略然后去携程订酒店,在抖音、微博、饿了么、京东、拼多多等App之间来回跳转都不是问题。智谱还推出快捷口令功能,可以预设常用指令短语,提升使用的便利程度。

不管是网页还是App,Agent能做到像人一样流畅操作,背后是模型视觉能力和推理能力的提升带来的质变。


比如Operator 之所以能够像人类一样操作电脑,离不开 OpenAI 量身打造的“计算机使用智能体 (CUA) ”。这是一套基于 GPT-4o 的视觉能力和高级推理能力,可以观察屏幕并使用虚拟鼠标和键盘来完成任务,不用专门的API接口。

图片来源:Open AI


通过GPT-4o的视觉能力,Operator能够“看懂”屏幕截图,“理解”网页的按钮、链接、文本框等要素,然后通过推理能力制定计划,使用虚拟鼠标和键盘完成界面操作,直到任务完成。

从“说 (Chat) ”到“做 (Act) ”,Agent迈出大模型走向现实世界的第一步。


垂类应用率先落地,你的工作助理上线了

相较于C端Agent的“网上冲浪”能力,在B端,Agent已经更早融入工作流程,开始“打工人”的一生。

2024年10 月,微软开发部署10款AI Agent——主要服务于企业的销售环节、会计业务以及客户服务等领域。这些智能体可以读取Microsoft 365 Graph、记录系统、Dataverse 和 Fabric 中的工作数据上下文,从而具备业务理解能力与工作技能,支持从 IT 服务台到员工入职的所有工作,相当于充当销售和服务人员的工作助理。

根据微软公布的案例,麦肯锡正在开发加速客户引入流程的Agent,项目试点结果显示,Agent可以节省 90%的筹备时间和 30%的行政工作;汤森路透则开发了一个用户法律尽职调查的Agent,部分任务可用过去一半的时间完成。

Shopify 则将Agent和电商工作流相结合,不仅能帮助商家快速准确地回复客户查询,还可以针对商店开发、营销、客户支持和后台管理等任务,提供个性化且符合情境的支持,比如产品描述、电子邮件、在线商店标题和常见问题解答等。


钉钉在2024年1月发布了AI助理 (AI Agent) ,4月正式上线AI助理市场 (AI Agent Store) ,覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目。钉钉表示,其AI助理市场致力成为最活跃的AI助理孵化、分发和交易平台,钉钉官方的Al助理、生态伙伴和开发者构建的Al助理、个体用户创造的Al助理,将成为三个主要组成部分,并从中获取商业收益。


国内的Agent还有支付宝旗下AI App支小宝、百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心、通义智能体、字节扣子等,面向企业用户提供智能体创建平台。


根据亿邦动力观察,Agent在B端已经被广泛应用于金融、医疗、法律、财务、生产、物流、资管、人力等专业性极强的领域。

图片来源:InfoQ


其中,金融已经成为Agent应用的首选。Gartner 调查发现,61%的银行高管表示所在公司正在或计划未来增加对人工智能的投资。例如为客户提供财务建议的AI 理财教练,在增收方面至少可以提升30%。

医疗服务同样需求旺盛。Agent可以涵盖日常辅助、影像分析、病历管理、手术支持、慢病管理等多场景,IBM的 AI智能体Watson Health还可以分析医疗数据并推荐治疗方案。

法律行业也有望成为Agent 的重要应用场景。Agent 可以帮助律师起草法律材料、汇总文档、做好研究。

这些“数字员工”能够在特定领域熟练分解复杂问题,动态选择最优解决路径。因为Agent会将大型任务分解为子任务,自动进行任务规划,并对所有流程进行评估;在执行任务的过程中,Agent具备记忆能力,短期记忆基于上下文,长期记忆基于向量数据库,可以进行多轮对话、保存用户特征、更新业务数据与最新信息。此外,Agent还能够调用API、插件等工具,更新业务信息并支持开发新功能。

德勤AI研究院称, AI智能体将改变基础业务模式,实现新的工作、运营和价值交付方式 。而红杉合伙人Konstantine Buhler则预测, 医疗和教育等“高服务成本”领域,将成为AI技术的下一个重要战场

怪不得比尔盖茨在博客上写:AI Agent“将彻底改变计算机使用方式,并颠覆软件行业”。他还预言“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”。

不够靠谱的Agent,能不能承载“下一个平台”的野心?







请到「今天看啥」查看全文