专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
秦皇岛晚报  ·  【中国好手艺117】铁艺灯笼 ·  9 小时前  
秦皇岛晚报  ·  【中国好手艺117】铁艺灯笼 ·  9 小时前  
光明日报  ·  中国好手艺:铁艺灯笼 ·  11 小时前  
可爱多手工艺术  ·  旧牛仔裤零碎布头旧衣服都剪成了拼图,这么多妙 ... ·  3 天前  
51好读  ›  专栏  ›  学术头条

今天,把电脑交给大模型

学术头条  · 公众号  ·  · 2024-10-24 11:53

正文


像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务 ,是人工智能行业的下一个前沿发展方向,也是迈向通用人工智能(AGI)、超级智能(Super Intelligence)的必由之路。


现在奇点已经临近。


我们基于在大语言模型(GLM 系列模型)、多模态模型和工具使用(Cog 系列模型)等方面的探索,在由自主智能体(Agent)驱动的人机交互新范式方面取得了一些阶段性成果:


基于CogAgent的应用:



基于AutoGLM-Web的应用:


上面这些工作,主要基于以下两项研究:


1、CogAgent:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)、截图交互和划词交互;


2、AutoGLM-Web:一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。


目前,CogAgent 已经在智谱公司内部和部分合作伙伴中使用,AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。


CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的 Plan-Do-Check-Act 循环,形成自我反馈和自我提升——恰如人类自己所做的一样。



CogAgent:Our Computer Use


早在去年 12 月,我们便提出 CogAgent


论文:https://arxiv.org/abs/2312.08914

Demo:http://36.1 03.203.44:7861/

代码:https://github.com/THUDM/CogVLM

模型:

Huggingface:

https://huggingface.co/THUDM/cogagent-chat-hf

魔搭社区:

https://modelscope.cn/models/ZhipuAI/cogagent-chat


CogAgent 具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可以在不依赖 API 调用的条件下,实现跨应用、跨网页的功能调用来执行任务。


基于我们推出的多模态模型 CogVLM,可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。


图|CogAgent 的模型架构


在现有研究基础上,我们力求突破。目标是以CogAgent为核心,打造一个能全面理解并使用通用GUI的模型,实现现有应用到新型交互界面的自动转换。


发布于CVPR (2024年6月)


目前,CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程,提供多轮、跨应用、上下文相关的服务,来协助用户处理以下事项:


1、用户“不想做”的事:包括重复繁琐的GUI操作(如批量信息收集、会议预定)和复杂认知活动(如界面内容总结)。


2、用户“不知道”的事:涵盖困难或不熟悉的GUI操作(如首次使用应用或功能)及超出用户认知能力的任务(如界面内容翻译)。


此外,我们还为CogAgent开发了“虚拟屏幕”功能,确保在信息搜集过程中不干扰用户使用电脑,并避免采集主屏幕信息,以保护用户隐私。


整体而言,相比于传统方法,CogAgent 能够感知多模态交互信息、并据此执行对应的 GUI 任务,同时打破信息间的隔离,串联信息的收集、处理和分发,极大地降低了终端用户的交互负担。


一句话操控电脑的时代,即将到来。



AutoGLM-Web:帮你网上冲浪


长久以来,人们已经习惯于通过搜索框来查找资料。






请到「今天看啥」查看全文