最近一段时间,大模型领域正在经历智能体(AI Agent)引发的革命。Anthropic 推出的升级版 Claude 3.5 Sonnet,一经推出即引爆了 AI 圈。作为新一代 AI 智能体,它跨过了大模型的次元壁,能够像人一样直接操纵电子设备,根据你给出的自然语音指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。大家都在自发探索智能体的使用方法,比如有人已经在用智能体自动代肝崩铁每日任务了。除了打游戏,在工作环境中智能体还可以接管很多日常事务,比如撰写邮件、安排会议、整理文件等等,据说从科研到写代码样样都行。有人表示,智能体工具的出现标志着全新人机交互范式踏出了新的一步。没过多久,国内公司就拿出了对标的产品,而且还更进一步,一次性实现了手机、PC、AI 原生硬件的覆盖。今天上午,智谱 Agent 宣布升级,开放「百万内测」申请,翻开了人机交互体验的新一页。这是智谱第一个产品化的智能体 Agent,可以做到让 AI 通过语音直接操纵硬件设备,还能跨不同 App 全局操作。在发布会现场,智谱 CEO 张鹏展示了一番智能体的能力。让 Agent 与现场观众建面对面群聊。AI 发的红包瞬间就抢空了。不得不说谢谢张总,谢谢 AI Agent。智谱智能体的手机版 AutoGLM 与电脑版 GLM-PC,内测阶段覆盖部分常用的 App 及应用。AutoGLM 支持包括微信、抖音、小红书、微博等社交平台、美团、饿了么、等美食平台、淘宝、京东、拼多多等购物平台、高德和百度地图等出行平台、以及 12306、去哪儿、携程等旅游订票平台。
用户打开 AutoGLM 后,只需要动动嘴(当然也支持文字输入),就能让智能体接管自己的手机,并在上面这些 App 上自动执行任何指令任务,比如在微信上对某个公众号的文章进行摘要总结、在高德地图上为你规划出行路线,等等。
此次,智谱给 AutoGLM 进行了一系列能力升级。基于这些新能力,我们看到了一些新玩法。
一是「更长」,即 AutoGLM 可以理解、遵循并自主完成超长、复杂的指令,支持超过 50 步的无打断连贯操作。在长任务上执行的速度比人类实操还要快。
二是「跨 App」,即 AutoGLM 在更强大泛化能力和思维链的加持下,支持复杂任务的跨 App 操作。有了这个智能体,用户与应用之间多了一个可以自动执行的调度层,省去了在不同 App 之间来回切换的麻烦,实现了这些 App 之间的协同操作。我们以不同 App 之间的信息分享为例,命令 AutoGLM「在小红书上种草几款单反相机,然后分享到微信的『编辑部之插科打诨』群」,操作很丝滑。再比如跨不同 App 购物,AutoGLM 也能一气呵成。更多新玩法进一步拓展了 AutoGLM 的功能,包括「短口令」,类似于手机上的快捷指令。在这种模式下,AutoGLM 可以一键存储用户自定义的快捷短口令,在触发该指令后自动发起并执行关联长任务。更有意思的还有「开盲盒」,AutoGLM 会默认跳过对话步骤,对于用户发出的模糊指令,让 AI 主动帮你完成选择。过程中只有在涉及重要操作(比如支付)时才会进行二次确认。
AutoGLM 的自主执行能力还扩展到了网页端。智谱在浏览器(Google Chrome 和 Microsoft Edge)的智谱清言插件上提供了 AutoGLM-Web 功能。该功能适配了知乎、微博、X 和豆瓣等社媒网站,百度、谷歌和必应等搜索引擎,百度学术、谷歌学术和 arXiv 等学术网站,以及 GitHub 代码托管网站和资讯类网站。在这些网站上,智能体遵循用户指令,可以自动执行站内搜索、内容总结、生成 arXiv 日报、搭建 GitHub 仓库、在微博超话签到等个性化功能,可玩性不错。如下所示,我们可以让它自动帮我们在微博分享新鲜事。在桌面端,智谱同样推出了像人一样操作计算机软件的应用 GLM-PC,它基于通用视觉大模型 CogAgent 的理解与任务规划能力,让用户通过简单的一句话指令执行复杂任务。比如查询并总结网页上的信息,并通过微信发送给别人:即将上线的隐形屏幕功能更加科幻。AI 可以在不打扰你的情况下提供帮助,解放屏幕使用权给人,自己在另外一个隐形屏幕上完成工作。从实现原理来讲,GLM-PC 在充分理解用户指令后对任务进行规划,然后识别电脑界面中的窗口、图形、文字等信息,然后自动操作电脑。另外,这个 AI 助手在使用过程中可以根据页面信息更改计划并自我纠错,从而更好地完成任务。据介绍,GLM-PC 尤为擅长处理办公场景,可以在微信、飞书、钉钉、腾讯会议等平台执行多样性任务,比如发送信息、预定和参与会议。同时支持浏览器网页搜索以及网页内容的阅读总结、翻译,还能进行多种文档处理,包括下载、发送和总结。不仅如此,智谱还实现了 GLM-PC 与手机端的联动。用户现在可以在手机上远程向 GLM-PC 发消息,让它自动进行电脑端操作。最后,智谱在发布会现场表示,要对十个亿级 App 进行免费 Auto 升级。荣耀、华硕、小鹏汽车等大厂,高通、英特尔等硬件、芯片厂商也纷纷站台,介绍了与智谱的合作。随着端到端、多模态、视频等新能力的大模型出现,大模型已经初步具备了和物理世界互动的能力。我们能够逐渐想象出山姆·奥特曼口中「前所未有的自然交互」的样子,但眼前能够接触到的很多落地产品,却似乎总是差点意思。这可能是因为想要构建颠覆性的产品,需要的不止是大模型能力,还有对于技术方向的提前预判,以及完整系统的优化。其实在发展大模型基础技术之外,智谱最近还一直在推进另一件事:构建体系。我们能够逐渐想象出山姆・奥特曼口中「前所未有的自然交互」的样子,但眼前能够接触到的很多落地产品,却似乎总是差点意思。这可能是因为想要构建颠覆性的产品,需要的不止是大模型能力,还有对于技术方向的提前预判,以及完整系统的优化。智谱在大模型 Agent 方向上的研究由来已久。自 2023 年 4 月,智谱就陆续提出了 AgentTuning、AgentBench、CogAgent 等大模型智能体工作,今年智谱又连续发布了AutoWebGLM、AutoGLM 等成果。智谱针对 AutoGLM、GLM-PC 的研发工作也经历了一年半以上的时间。在探索大模型智能体能力边界的过程中,智谱逐渐获得了两个重要的观察。
首先,智能体和推理本质上服从着同大模型训练类似的 Scaling Law。智能体通过和环境交互,模型获得来自环境的反馈监督信号,具有类似的规模扩展效应。这说明,通过扩展计算规模,我们可以持续地提升大模型智能体的表现水平。
在新的 Scaling Law 背后,智谱设计了 WebRL,一个自进化在线课程强化学习算法框架。通过引入大模型特有的自进化演化策略,并利用课程学习实现智能体由易到难进行泛化,并最终借助在线 off-policy 强化学习,AutoGLM 实现了在在线环境中的智能体扩展规律。
其次,智谱进一步的探索发现了 Agent 存在 Emergent Ability,即能力涌现。
10 月发布之初,AutoGLM 尚只能在单个应用、短距离任务上展现能力。然而,随着工程师们进一步训练和规模的扩展,最新版本的 AutoGLM 已初步具备跨应用、长距离任务的胜任水平,甚至能够能遵从复杂指令在从未见过的 App 应用中操作。其实在发展大模型基础技术之外,智谱最近还一直在推进另一件事:构建体系。由于多模态大模型的出现,现在的 AI 已经具备了语义理解、屏幕内容解析和行为语义理解等能力。接下来要做的似乎就是找到一种机制,让大模型能够一步一步地解题。智能体(AI Agent)就是用来执行这样复杂的任务的。它既具有自主性,又能进行环境交互,可以分解复杂任务进行规划,使用专业的模型或外部工具来提升自身能力,还拥有远超大模型本身的记忆能力。这意味着加入智能体之后,手机这样的设备可以利用相对轻量级的模型,承载起更加复杂的自动化任务。此前在业内,一些科技大厂、创业公司和手机厂商已在 PC、AI 手机上构建了智能体能力,并获得了不错的效果。但从技术发展的角度来看,这往往是各自产品路线的延伸。智谱提供的解决方案在此基础上还会覆盖汽车、智能眼镜、智能音箱,甚至具身智能的机器人等 AI 原生硬件,体现出了另一种思路。
智谱认为,将来不同的硬件设备都可能由统一体系的 AI 智能体来操作,这样才能实现人机交互的提升。为此,他们也在芯片、应用 App、操作系统 OS 和模型侧进行了提前布局。
包括与芯片、终端厂商持续合作,从硬件底层进行优化,持续优化端侧大模型的能力。在 10 月高通骁龙 8 至尊版发布时,智谱就宣布已联合高通对最新一代端侧视觉大模型 GLM-4V 进行了深度适配和推理优化。在端侧部署后,今年的新一代旗舰手机已经可以支持丰富的多模态交互方式,让人们获得更加情境化、个性化的终端侧智能体验。
智谱也和众多手机、电脑厂商合作,在 AI PC、手机端智能助手领域给大模型进行落地。率先亮出 AI 智能体操作手机的荣耀,就在九月份与智谱达成了 AI 大模型技术的战略合作。
本周,智谱还与英特尔、机械革命联合发布了专为程序员设计的 CODE AI 程序员笔记本,预装了基于端侧的智能编程助手。
通过端侧芯片性能优化和端云一体架构,智谱的大模型智能体技术,不久后将出现在越来越多的设备上。
尽管目前的技术还在初期,但 AI 智能体已经展现出了前景。再往更深的层次想,过去键盘鼠标、触控屏幕这样物理交互的形式,从 DOS、Windows 再到 iOS、安卓等操作系统,都是为了让人更好地与机器沟通。大模型正在走一条相反的路,让我们无需花费大量时间去理解各种应用的复杂界面,减少机械的劳动,反过来让机器适应人类。智谱 CEO 张鹏在发布会上表示:「目前的 Agent 能力更像是在用户和应用、设备之间增加一个智能的调度层。可以看做是大模型通用操作系统 LLM-OS 的一种雏形。这已经对人机交互形式产生极大的影响。更重要的是,我们看到了一种大模型操作系统 LLM-OS 的可能,基于大模型智能能力,有机会实现原生的人机交互。」