专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

今天，把电脑交给大模型

学术头条 · 公众号 · · 2024-10-24 11:53

正文

像人类一样感知环境、规划任务、执行动作（如使用工具/软件），最终完成特定任务 ，是人工智能行业的下一个前沿发展方向，也是迈向通用人工智能（AGI）、超级智能（Super Intelligence）的必由之路。

现在奇点已经临近。

我们基于在大语言模型（GLM 系列模型）、多模态模型和工具使用（Cog 系列模型）等方面的探索，在由自主智能体（Agent）驱动的人机交互新范式方面取得了一些阶段性成果：

基于CogAgent的应用：

基于AutoGLM-Web的应用：

上面这些工作，主要基于以下两项研究：

1、CogAgent：一个替代终端用户理解、使用图形用户界面（GUI），完成信息获取和功能触发的智能体，更具泛化性和拟人性，目前支持在 Windows、macOS 软件上进行自然语言交互（包括打字输入和语音输入）、截图交互和划词交互；

2、AutoGLM-Web：一个能模拟用户访问网页、点击网页的浏览器助手，可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页，结合历史邮件信息回复邮件。

目前，CogAgent 已经在智谱公司内部和部分合作伙伴中使用，AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。

CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS（以大模型为中心的通用计算系统）的不同尝试，尽管基于不同的技术路线，但两者均瞄向同样一个目标：实现模仿人类的 Plan-Do-Check-Act 循环，形成自我反馈和自我提升——恰如人类自己所做的一样。

CogAgent：Our Computer Use

早在去年 12 月，我们便提出 CogAgent ：

论文：https://arxiv.org/abs/2312.08914

Demo：http://36.1 03.203.44:7861/

代码：https://github.com/THUDM/CogVLM

模型：

Huggingface：

https://huggingface.co/THUDM/cogagent-chat-hf

魔搭社区：

https://modelscope.cn/models/ZhipuAI/cogagent-chat

CogAgent 具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，可以在不依赖 API 调用的条件下，实现跨应用、跨网页的功能调用来执行任务。

基于我们推出的多模态模型 CogVLM，可以在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合。

图｜CogAgent 的模型架构

在现有研究基础上，我们力求突破。目标是以CogAgent为核心，打造一个能全面理解并使用通用GUI的模型，实现现有应用到新型交互界面的自动转换。

发布于CVPR （2024年6月）

目前，CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程，提供多轮、跨应用、上下文相关的服务，来协助用户处理以下事项：

1、用户“不想做”的事：包括重复繁琐的GUI操作（如批量信息收集、会议预定）和复杂认知活动（如界面内容总结）。

2、用户“不知道”的事：涵盖困难或不熟悉的GUI操作（如首次使用应用或功能）及超出用户认知能力的任务（如界面内容翻译）。

此外，我们还为CogAgent开发了“虚拟屏幕”功能，确保在信息搜集过程中不干扰用户使用电脑，并避免采集主屏幕信息，以保护用户隐私。

整体而言，相比于传统方法，CogAgent 能够感知多模态交互信息、并据此执行对应的 GUI 任务，同时打破信息间的隔离，串联信息的收集、处理和分发，极大地降低了终端用户的交互负担。

一句话操控电脑的时代，即将到来。

AutoGLM-Web：帮你网上冲浪

长久以来，人们已经习惯于通过搜索框来查找资料。

今天，把电脑交给大模型

正文

CogAgent：Our Computer Use

AutoGLM-Web：帮你网上冲浪

请到「今天看啥」查看全文