OpenAI上线首款AI智能体Operator；2027 年 AI 或将超越人类；字节启动 AGI 长期研究计划

人工智能与大数据技术 · 公众号 · 大数据 · 2025-01-24 11:30

正文

请到「今天看啥」查看全文

0、Meta首席科学家LeCun：新一代AI架构3到5年内问世，机器人技术是核心

据华尔街见闻，Meta首席AI科学家Yann LeCun周四表示，在未来3到5年内，“全新的AI架构范式”将会出现，其能力将远远超越现有AI系统。他还预测，未来几年可能成为“机器人技术的十年”，届时AI和机器人技术的进步将结合在一起，解锁新一代智能应用程序。

媒体报道，在达沃斯论坛上的一场名为“技术辩论”的会议上，LeCun指出，目前的“AI形式”，即生成式AI和大型语言模型（LLMs），并没有那么强大。他认为，虽然这种模型是有用的，但在很多方面仍存在不足。

他表示，当下AI模式的“限制”阻碍了机器实现真正的智能行为，这主要归结为四个关键原因：缺乏对物理世界的理解、缺乏持久记忆、缺乏推理能力以及缺乏复杂规划能力。

1、OpenAI上线首款AI智能体Operator

据每日经济新闻，当地时间1月23日周四，OpenAI宣布上线名为Operator的首款AI智能体，它能通过网页执行各种任务。Operator可以像人类一样使用互联网执行各种任务，可以打开一个浏览器，点击页面的按钮并打字输入内容。人类用户上网会做的那些事，比如预订机票、酒店订房、规划购物订单并完成网购，都可以由Operator代劳。OpenAI介绍，支持Operator的是简称CUA的模型，是一种通过强化学习将OpenAI旗舰模型GPT-4o的视觉功能与高级推理相结合的模型。

2、字节启动 AGI 长期研究计划

1 月 23 日，爱范儿获悉，字节豆包大模型团队已在内部组建 AGI 长期研究团队，代号「Seed Edge」，鼓励项目成员探索更长周期、不确定的和大胆的 AGI 研究课题。

有接近字节的知情人士透露，Seed Edge 的目标是探索 AGI 的新方法，代号名中的 Seed 是豆包大模型团队名称，而 Edge 代表最前沿的 AGI 探索。

目前，Seed Edge 初步确定了五大研究方向，包括：

探索推理能力的边界
探索感知能力的边界
探索软硬一体的下一代模型设计
探索下一代 AI 学习范式
探索下一个 scaling 方向

另外据晚点从字节内部获取的信息，字节创始人张一鸣非常重视和强调加强 AI 研究投入，他会自己看论文，看技术关键细节，和一流 AI 研究者聊天、交流，并鼓励字节 AI 研究团队探索、研究基础课题。

在新加坡，字节有专门的研究团队协助张一鸣理解前沿技术、讨论研究规划，其中之一是新加坡国立大学原教授、字节研究员冯佳时。2023 年开始，他经常给张一鸣辅导。

3、智元机器人联合北大，推出通用机器人操作框架

1 月 23 日，智元机器人与北京大学联合实验室宣布，推出通用机器人操作框架「OmniManip」。

据了解，智元机器人与北京大学联合实验室为解决「视觉语⾔基础模型（VLMs）如何应⽤于机器⼈，以实现通⽤操作」这一具身智能领域的难题，携⼿提出了「OmniManip」架构。「OmniManip」基于以对象为中⼼的 3D 交互基元，将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。

针对⼤模型幻觉问题和真实环境操作的不确定性，OmniManip 创新性地引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计，实现了操作性能的显著突破。实验结果表明，OmniManip 作为⼀种免训练的开放词汇操作⽅法，在各种机器⼈操作任务中具备强⼤的零样本泛化能⼒。

目前，项目主页与论文已上线，实验室表示代码与测试平台即将开源。

4、Anthropic CEO：2027 年 AI 或将超越人类

近日，Anthropic CEO Dario Amodei 接受华尔街日报的采访，Dario Amodei 坚定地认为，2027 年之前，AI 或将可以完全超越人类智能。

主持人在采访中提到「人工智能的发展是否已经遭遇了瓶颈」，Dario 认为并没有，同时还将 AI 发展比作河水，目前是遇到「巨石阻挡」的阶段，但总能找到新的路径去发展，因此 Dario 现在比以往对 AI 更有信心，并表示人类目前离突破性的 AI 能力相当接近。

对于 AGI 这个概念，Dario 表示更像是一个营销术语。但他预测，未来某个时间节点，大家将开发出一款几乎在各方面，都能超越大多数人类的 AI 系统。Dario 表示具体时间无法确定，但他预计将会在未来两三年内。

此外，Dario 还透露了不少关于 Claude 模型的内容。首先，联网功能是 Anthropic 目前重点开发的方向，很快就会推出这个功能；同时 Dario 也回应了 Claude 在图片生成领域为什么没有反响，他认为图像或视频生成就像人类拍照或拍视频一样，想要拍出高质量的内容并非容易的事。Dario 还透露 Claude 未来，将支持跨项目记忆。

5、智谱宣布电脑智能体 GLM-PC 开放体验

1 月 23 日，智谱宣布自主操作电脑的多模态 Agent — GLM-PC 开放体验。

据了解，GLM-PC 是基于智谱多模态大模型 CogAgent，全球首个面向公众、回车即用的电脑智能体（agent）。它能像人类一样「观察」和「操作」计算机，协助用户高效完成各类电脑任务。

本次 GLM-PC 升级推出「深度思考」模式，并增加了专用来做逻辑推理和代码生成的功能。新版 GLM-PC 将借鉴人类「左脑」与「右脑」分工，通过代码生成与图形界面理解，实现逻辑推理与感知认知的深度结合。

据悉，GLM-PC 的「左脑」部分负责代码生成与逻辑执行，具有规划、循环执行、长思考能力（动态反思、纠错与优化）等功能；而「右脑」部分负责图像与 GUI 认知，专注于深度感知与交互体验，支持 GUI 图像理解、用户行为认知、图像语义解析等功能。

「左右脑」还支持协作，使 GLM-PC 不仅能够处理复杂逻辑任务，还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知，帮助用户探索更高效的解决方案，特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。

目前，新版 GLM-PC 已上线其官网并支持下载体验，本次更新智谱还提供了对 Windows 系统的支持。此外，为促进预训练 GUI Agent 的研究，智谱于 2024 年 12 月开源了全面提升后的模型 CogAgent-9B-20241220。

6、OpenAI称即将发布GPTo3模型

OpenAI 首席产品官凯文・维尔（Kevin Weil）今天在#冬季达沃斯#世界经济论坛上表示，OpenAI 预计将在 2 月或 3 月发布更智能的 GPT o3 模型。

他还提到，该公司准备在第一季度推出其首批 AI 智能体工具，使 ChatGPT 能够在计算机上执行实际操作，例如 ChatGPT 可以帮助他的孩子填写并提交足球报名表。

他在介绍 2025 年路线图时透露，OpenAI 正在开发能力大幅提升的下一代模型（可能是 o4）。他表示，从 o1 到 o3（技术上是 o2），OpenAI 只用了三个月的时间，他预计未来模型的迭代周期会更短。（IT之家）