专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  另外两件事[241015] ·  20 小时前  
小众软件  ·  如何让抽屉里的闲置安卓手机变成神器? ·  20 小时前  
APPSO  ·  提前体验火上热搜的 Kimi ... ·  4 天前  
APPSO  ·  雷军 AI ... ·  1 周前  
51好读  ›  专栏  ›  APPSO

OpenAI 罕见开源!低调发布的新研究,一出来就被碰瓷

APPSO  · 公众号  · app  · 2024-10-15 11:57

正文

或许是前段时间风头太盛,周末时,OpenAI 静悄悄发布了新的研究作品:Swarm。一反之前的架势,这个新作只在官网的 Cookbook 和 Github 发布,官推都没有多讲。
除了非常安静和低调,开发人员还反复给自己叠甲:这只是一个实验性质的框架,只作为分享和教育用途。官方不质保,实用需谨慎!
明明已经这么低调,一出来还是被碰瓷了。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
什么是 Swarm?
Swarm 旨在探索轻量级、可扩展、可定制的多代理协作模式。OpenAI 的研究人员,提出了「routine」和「handoffs」概念,用来表达 agent 之间的任务传递。
然而 Swarm 才发布一天,麻烦就找上门来:一个二十多岁的开发者 Kye Gomez 发推称,这个新作从名字到框架,全都是抄袭他的创业项目 Swarms。
这条控诉吸引了超过 20 万的围观,不过,围观群众都很冷静,要求 Kye 提供更明确的证据,并且质疑他提出的诉求:「除非 OpenAI 投资我们」,这什么东西啊?
很快就有网友翻出他的碰瓷前科。而且,从两边在 Github 上发布的 README 文档来看,显然也是 OpenAI 更靠谱一点。
我把文档送进了 ChatGPT,用最新的 o1 做了一下分析,OpenAI 提出了更详实和具体的想法。
至于说项目重名和一些常用指令重合,比如.run()——这就像是有人说自己的数学考卷被抄袭了,因为两边的答题框里都有个「解」字 🙂。
OpenAI 的 Swarm 框架里,重点梳理了在多代理模式里的各种成分,并且提出了两个关键概念:例程 (routines) 和交接 (handoffs),还提供了很多便于理解的例子。
例程可以把它理解为由不同步骤组成起来的一套「基本操作」,比如,你搭建了一个购物助理,那么你就可以规定一套流程作为例程。
但是一个 agent 能做的事,再多也是有限的。更何况大语言模型本身,多多少少会出幻觉。所以需要不同的 agent、不同的 routine 之间有所交接。
就像一场接力跑,一个选手跑完一段,就要交接到下一个选手手上,而且要保证平稳,不能掉在地上。
这些才是本次发布里 OpenAI 重点关注的部分。或许说不上是什么惊为天人的大发现,但硬说抄袭,也是有点碰瓷了——非要追根溯源,那得倒回几十年前。
多智能体最擅长的,竟然是打游戏
OpenAI 并不是才开始对多智能体协作发生兴趣的,早在 2018 年,就有过不错的表现——在 Dota 2 职业比赛上,击败了资深的人类玩家。
游戏是一个天然适合用来测试多智能体的土壤,不同的角色,有不同的技能;面对不同的对手,要有不同的策略,总之,想要赢下一局游戏,势必要协调各个角色,并且组织好它们之间的协作能力。
想想你打王者碰到猪队友时有多气,就知道这个难度了。
当时 OpenAI Five 涉及到的技术构件包括神经网络、自训练、强化学习等,没有时下流行的大语言模型,主要是用来试验多智能体协作。
甚至,那个时候每个英雄各自背后的神经网络,并不互相沟通,而是有一个负责总控的超参数,来协调每一个英雄(主要是背后的神经网络)的表现。
再往深了讲就有点太深了,总之,那几年的经历,让 OpenAI 连续三年打赢了几个 Dota2 的大赛,也在多智能体协作方面颇有收获。
到了 2019 年,DeepMind 开发的 AlphaStar 在《星际争霸 2》中,水平超过了 99.8%的人类玩家。
在星际里,有人族、神族和虫族三个派系,每个派系都有多个可供操作的建筑、兵种,每局游戏也都需要经历资源采集、科技发展和实时战斗等几个流程。
当时 DeepMind 发表论文时就提到,游戏是一个多智能体协作的任务,每个玩家需要控制许多单位,共同实现目标。
DeepMind 所设计的 agent,每分钟操作数约为 180 次,大概等同于中级玩家。当时他们的想法是:智能体要尽可能地学习人类玩家的游戏操作,然后超越人类。
这样的「类人」思路,甚至可以追溯到更久之前:早在 1972 年,卡尔·休伊特(Carl Hewitt)就提出了 Actor Model(行动者模型),这是并发计算的概念模型。演员模型提出了独立计算实体(agent)可以通过消息传递进行通信的概念,为智能体之间的交互奠定了理论基础。
到了九十年代和千禧年初,agent 就更加明确的,被视为能够自主行动、决策的「赛博实体」,并且有了基于智能体信念、意图进行决策和规划的研究,BDI 模型。
等到了大语言模型横空出世之后,多智能体的交互、决策沟通,从原来的黑盒,变得更容易转化成自然语言。
智能体之间,也可以通过语言来讨论、协作,特别是在决策情境中,不同的智能体之间能够「有商有量」。
之前我们介绍过面壁智能曾经做过的研究,也是在 Minecraft,一款沙盒游戏里——不得不说,多智能体实在是太擅长打游戏了。
在游戏里,不同的智能体可以直接对话来完成分工、资源互通和任务传递。大语言模型的推理和记忆能力,都能更有效地为多智能体的行动提供支援。
而 OpenAI 不就在于有厉害的模型吗——年初时,他们借由 ChatGPT 灰度测试过,在对话框内,可以召唤其他 GPT 插件,也算是一种多智能体协作的「平替版」。
只是效果着实不咋地,尝试了一下 Capcut 的插件,一直鬼打墙的跳转不成功(注:Capcut 是剪映的海外版)。
可以说,这一次的 Swarm 是 OpenAI 探索充分调动自己的优势——强大的基座模型——再进一步摸索出一个多智能体的工作流程框架。
好消息是,在从 OpenAI 变得越来越「吝啬」之后。这次 Swarm 倒是开源出来了。大语言模型让多智能体系统能够以更加自然的方式与人类互动。相信在未来,这种交互绝不仅限于简单的对话,而是会更多的提高生产力。