专栏名称: 人工智能与大数据技术
分享大数据、云计算、人工智能等高科技先进技术
目录
相关文章推荐
数据派THU  ·  高阶Transformer可在多模态时间序列 ... ·  19 小时前  
数据派THU  ·  【KDD2025】大语言模型与小型推荐模型在 ... ·  19 小时前  
软件定义世界(SDX)  ·  中小企业数字化转型的现状分析及对策建议 ·  3 天前  
51好读  ›  专栏  ›  人工智能与大数据技术

OpenAI上线首款AI智能体Operator;2027 年 AI 或将超越人类;字节启动 AGI 长期研究计划

人工智能与大数据技术  · 公众号  · 大数据  · 2025-01-24 11:30

正文

0、Meta首席科学家LeCun:新一代AI架构3到5年内问世,机器人技术是核心


据华尔街见闻,Meta首席AI科学家Yann LeCun周四表示,在未来3到5年内,“全新的AI架构范式”将会出现,其能力将远远超越现有AI系统。他还预测,未来几年可能成为“机器人技术的十年”,届时AI和机器人技术的进步将结合在一起,解锁新一代智能应用程序。


媒体报道,在达沃斯论坛上的一场名为“技术辩论”的会议上,LeCun指出,目前的“AI形式”,即生成式AI和大型语言模型(LLMs),并没有那么强大。他认为,虽然这种模型是有用的,但在很多方面仍存在不足。


他表示,当下AI模式的“限制”阻碍了机器实现真正的智能行为,这主要归结为四个关键原因:缺乏对物理世界的理解、缺乏持久记忆、缺乏推理能力以及缺乏复杂规划能力。


1、OpenAI上线首款AI智能体Operator


据每日经济新闻,当地时间1月23日周四,OpenAI宣布上线名为Operator的首款AI智能体,它能通过网页执行各种任务。Operator可以像人类一样使用互联网执行各种任务,可以打开一个浏览器,点击页面的按钮并打字输入内容。人类用户上网会做的那些事,比如预订机票、酒店订房、规划购物订单并完成网购,都可以由Operator代劳。OpenAI介绍,支持Operator的是简称CUA的模型,是一种通过强化学习将OpenAI旗舰模型GPT-4o的视觉功能与高级推理相结合的模型。


2、字节启动 AGI 长期研究计划


1 月 23 日,爱范儿获悉,字节豆包大模型团队已在内部组建 AGI 长期研究团队,代号「Seed Edge」,鼓励项目成员探索更长周期、不确定的和大胆的 AGI 研究课题。


有接近字节的知情人士透露,Seed Edge 的目标是探索 AGI 的新方法,代号名中的 Seed 是豆包大模型团队名称,而 Edge 代表最前沿的 AGI 探索。


目前,Seed Edge 初步确定了五大研究方向,包括:


  • 探索推理能力的边界

  • 探索感知能力的边界

  • 探索软硬一体的下一代模型设计

  • 探索下一代 AI 学习范式

  • 探索下一个 scaling 方向


另外据晚点从字节内部获取的信息,字节创始人张一鸣非常重视和强调加强 AI 研究投入,他会自己看论文,看技术关键细节,和一流 AI 研究者聊天、交流,并鼓励字节 AI 研究团队探索、研究基础课题。


在新加坡,字节有专门的研究团队协助张一鸣理解前沿技术、讨论研究规划,其中之一是新加坡国立大学原教授、字节研究员冯佳时。2023 年开始,他经常给张一鸣辅导。


3、智元机器人联合北大,推出通用机器人操作框架


1 月 23 日,智元机器人与北京大学联合实验室宣布,推出通用机器人操作框架「OmniManip」。


据了解,智元机器人与北京大学联合实验室为解决「视觉语⾔基础模型(VLMs)如何应⽤于机器⼈,以实现通⽤操作」这一具身智能领域的难题,携⼿提出了「OmniManip」架构。「OmniManip」基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。


针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 创新性地引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能的显著突破。实验结果表明,OmniManip 作为⼀种免训练的开放词汇操作⽅法,在各种机器⼈操作任务中具备强⼤的零样本泛化能⼒。


目前,项目主页与论文已上线,实验室表示代码与测试平台即将开源。


4、Anthropic CEO:2027 年 AI 或将超越人类


近日,Anthropic CEO Dario Amodei 接受华尔街日报的采访,Dario Amodei 坚定地认为,2027 年之前,AI 或将可以完全超越人类智能。


主持人在采访中提到「人工智能的发展是否已经遭遇了瓶颈」,Dario 认为并没有,同时还将 AI 发展比作河水,目前是遇到「巨石阻挡」的阶段,但总能找到新的路径去发展,因此 Dario 现在比以往对 AI 更有信心,并表示人类目前离突破性的 AI 能力相当接近。


对于 AGI 这个概念,Dario 表示更像是一个营销术语。但他预测,未来某个时间节点,大家将开发出一款几乎在各方面,都能超越大多数人类的 AI 系统。Dario 表示具体时间无法确定,但他预计将会在未来两三年内。


此外,Dario 还透露了不少关于 Claude 模型的内容。首先,联网功能是 Anthropic 目前重点开发的方向,很快就会推出这个功能;同时 Dario 也回应了 Claude 在图片生成领域为什么没有反响,他认为图像或视频生成就像人类拍照或拍视频一样,想要拍出高质量的内容并非容易的事。Dario 还透露 Claude 未来,将支持跨项目记忆。


5、智谱宣布电脑智能体 GLM-PC 开放体验


1 月 23 日,智谱宣布自主操作电脑的多模态 Agent — GLM-PC 开放体验。


据了解,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。


本次 GLM-PC 升级推出「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。新版 GLM-PC 将借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合。


据悉,GLM-PC 的「左脑」部分负责代码生成与逻辑执行,具有规划、循环执行、长思考能力(动态反思、纠错与优化)等功能;而「右脑」部分负责图像与 GUI 认知,专注于深度感知与交互体验,支持 GUI 图像理解、用户行为认知、图像语义解析等功能。


「左右脑」还支持协作,使 GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。


目前,新版 GLM-PC 已上线其官网并支持下载体验,本次更新智谱还提供了对 Windows 系统的支持。此外,为促进预训练 GUI Agent 的研究,智谱于 2024 年 12 月开源了全面提升后的模型 CogAgent-9B-20241220。


6、OpenAI称即将发布GPTo3模型


OpenAI 首席产品官凯文・维尔(Kevin Weil)今天在#冬季达沃斯#世界经济论坛上表示,OpenAI 预计将在 2 月或 3 月发布更智能的 GPT o3 模型。

他还提到,该公司准备在第一季度推出其首批 AI 智能体工具,使 ChatGPT 能够在计算机上执行实际操作,例如 ChatGPT 可以帮助他的孩子填写并提交足球报名表。

他在介绍 2025 年路线图时透露,OpenAI 正在开发能力大幅提升的下一代模型(可能是 o4)。他表示,从 o1 到 o3(技术上是 o2),OpenAI 只用了三个月的时间,他预计未来模型的迭代周期会更短。(IT之家)