开年OpenAI放出了第一个王炸:Operator,定睛一看,这不是早就上线的智谱智能体 AutoGLM 和 GLM-PC 么?早在今年10月25日,智谱便上线了移动端和Web端插件形式的AutoGLM,它只需接收简单的文字/语音指令,它就可以模拟人类操作手机和浏览器。11月29日,智谱上线了更大权限的,基于PC的自主Agent:GLM-PC,并于2025年1月23日,更新了1.1版本,并全面公测。从效果上看,OpenAI展示的一些Operator的应用场景,AutoGLM也完全能搞定,以浏览器插件的形式增强了产品灵活性的同时进一步降低了门槛,更重要的是,完全免费,立省200美元!比如,AutoGLM能够自主的在YouTube里给Operator写上一句“商业互吹”,或者去X里给Operator点赞。亦或是在OpenTable上预订好餐厅的多任务分步处理,AutoGLM都能够做到丝滑完成。升级后的GLM-PC与基于Web端的Agent有着更大的权限以此拓宽能力边界,比如GLM-PC不仅能够预订餐厅,更能在系统中book日历提醒,来保证准时赴约。硅星人全面测评了最新版本的GLM-PC,接管整个电脑的权限后,它不仅能发微信、整理文件,还可以通过手机远程遥控GLM-PC进行协作,甚至还在这个一票难求的春运时间,不间断操作帮我抢到了回家的火车票...GLM-PC分为两种模式:极速模式和深度思考模式,其中极速模式并不支持附件上传和多轮对话,也就是端到端的text to action,通过手机远程遥控也仅支持极速模式;而深度思考模式则会展现思考链路和逻辑,输入和输出内容更加丰富,可执行的指令也更加复杂。在GLM-PC提供的案例中,有“群发助手”的引导,对话框中是一段预设的prompt,本以为要测试的我,忘记了自己的微信中真的有一个名为「相亲相爱一家人」的群。于是GLM-PC开始自动操作准备给每一位群友发上一段祝福,哪怕被我紧急拦截,也已经群发了10个人。一开始,我们用它来执行了一些相对简单的任务,比如用它来查找关于OpenAI的最新新闻,阅读了相关文章后帮我简单整理一下基本信息传回,同时基于智谱清言的语言理解能力,对新闻事件进行了分析。接着难度逐渐升级,我让GLM-PC在小红书上找到推荐的北京粤菜馆,GLM-PC在小红书中搜索了关于北京粤菜馆的帖子进行分析,它竟然还聪明地知道阅读评论,在评论中找到几家推荐比较多的餐厅,然后跳转到大众点评中查了评分,最后将4.5分以上的餐厅整理进名单,回传给我。还真别说,最终筛选出来的几家粤菜馆,味道真的不错也避雷了网红餐厅。要过年了,AI能不能替我挑选点年货,加到淘宝的购物车里?在这个过程中,展示了GLM的多层分析能力,毕竟年货不是某一种具体的商品,在我向它提出这个需求时,它先是思考,送给父母年货包括五谷杂粮、保健品、家电,虽然不一定完全符合父母的心意,但对类别的判定相对准确。紧接着它在淘宝中分类搜索了具体的商品,而不是直接搜索“年货”两个字,当然,过程中出现了一些bug,当它搜索谷子的时候,跳出来是二次元文化的吧唧,不够时髦的GLM-PC一时间没能理解这并不是目标商品,仍然将它加进了购物车。GLM-PC还化身为了抢票神器,还没抢到回家车票的我,让GLM-PC帮我买最早一班的车票,它不仅查了几天的车票情况,还慷慨的帮我点选了商务座,结果成功买到一张26日的一等座。不过在我们的测试中,也发现了涉及到账号登录、扫码登录的页面,GLM-PC没办法自主操作,也不会停下来,而是不停地重复该页面。与Operator一样,GLM-PC也做了敏感性测试,让用户在敏感时刻,比如确认提交信息、确认支付等页面接盘操作。同时,在GLM-PC操作电脑页面时,会由GLM-PC主导鼠标,人为干预后仍然继续GLM的流程,只能按下暂停键或结束键才能完全交予人类接管。在技术路线上,GLM-PC与Operator采用的是同一种技术方案:基于多模态大模型的视觉识别与空间进行交互。据OpenAI介绍,Operator基于最新研发的Computer-Using Agent (CUA) 模型,通过观察屏幕并使用虚拟鼠标和键盘来完成任务,而无需依赖专门的API接口。早在2023年12月,智谱便发布了CogAgent,是其第一个基于视觉语言模型(Visual Language Model, VLM)的开源 图形界面智能体 GUI Agent 模型。GLM-PC即是基于该模型的初代产品。据开发文档中介绍,通过多模态感知实现全 GUI 空间交互。这些 GUI Agent,类似人类,能以视觉形式感知界面元素与布局,模拟人类进行点击、键盘输入等元操作,极大拓展了 Agent 在虚拟交互空间的应用边界。在GLM-PC 1.1版本中,使用更强大的视觉语言模型GLM-4V-9B作为基座模型,用来提升模型的基座图像理解性能。与Operator相同的是,基于LLM模型提出Prompt,同时输入的模态(图像感知)、输出的操作空间(点击、滚动、键盘输入)的交互方式一致,同时思考了Agent和人类的使用权交接情况,对于敏感时刻的判断等等。且在介绍中,Operator令Sam Altman颇为骄傲的是它的自我进化和自我反思能力,即Operator可通过不断操作和学习掌握人类的习惯,不断拓宽自身的能力边界。GLM-PC也基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」,其中包括了一种核心技术WebRL,对于大模型智能体任务规划、训练任务和数据稀缺、反馈信号稀少和多任务策略分布等问题进行了有意识的对抗,加之自适应学习策略,能够在迭代过程中不断改进,持续稳定提高自身性能,并在执行过程中获取更多新技能。不同的是,目前Operator现阶段仅针对Web端,并且与ChatGPT绑定付费,而GLM-PC是独立的App,可针对电脑进行操作(包括浏览器和电脑本地),同时手机可远程遥控操作电脑,并且完全免费。从Operator的日志上看,Operator一次仅能执行单步的线性预测,和步骤执行,而GLM-PC具备多层级规划预测能力,并将CogAgent 多模态GUI Agent模型与 CodeGeex代码生成模型相结合,可实现复杂严谨的逻辑控制。但GLM-PC也对于硬件端的算力储备有一定的限制,仅支持M系列的Mac电脑以及Windows10以上的系统。我们在M1芯片的MacBook Air上进行测试,整个过程中并未出现卡顿情况。总的来看,GLM-PC更适合国内的互联网环境,移动端和PC端联动也更符合日常的使用习惯。据硅星人了解,GLM-PC也将根据用户的反馈持续迭代交互体验,真正解放了打工人的双手!