专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
BCG波士顿咨询  ·  新年扬帆再出发,携手逐梦同奋进 ·  3 天前  
汇易咨询  ·  JCI:蛇年大吉大利,美麦涨幅领先吐祥瑞 ·  3 天前  
51好读  ›  专栏  ›  新智元

AI大军接管六大科技巨头,老板打工人皆是AI!效仿微软组织结构,工作效率惊人

新智元  · 公众号  ·  · 2024-08-12 12:47

主要观点总结

文章探讨了AI智能体在组织中的结构如何影响其在软件工程任务中的表现。通过参考大型科技公司的组织结构,文章展示了不同AI智能体结构在SWE-bench实验中的表现,并分析了组织结构对AI智能体性能的影响。

关键观点总结

关键观点1: 大型科技公司的组织结构启发AI智能体设计

大型科技公司的组织结构为AI智能体的设计提供了灵感。Alex Sima借鉴了微软、苹果、谷歌等公司的组织结构,并将其应用于AI智能体的实验中。

关键观点2: 不同组织结构对AI智能体性能的影响

实验结果表明,具有多个竞争团队的组织结构(如微软和苹果)表现优于集中化的层级结构。具有单点故障的系统(如谷歌、亚马逊和Oracle)表现不佳。这些观察表明,组织结构设计对AI智能体在软件工程任务中的表现具有显著影响。

关键观点3: AI智能体性能提升的局限性

尽管通过增加AI智能体的数量可以在某些情况下提高性能,但这种提升仅限于边际效益。更为有效的提升方法可能是改善智能体的实际逻辑推理能力,或者它们可以采用(或被给予)的解决软件问题的策略和方法。

关键观点4: 智能体通信结构的重要性

智能体的组织结构可能成为AI智能体设计中的关键超参数。不同的组织结构可能更适合不同的任务。对于复杂的任务,如软件工程,需要更复杂的智能体通信结构以实现最佳性能。


正文



新智元报道

编辑:桃子
【新智元导读】 你有没有想过,或许未来某天,AI大军完全能够承担公司重任,人类是否会沦为配角?

小扎坚信,「未来世界上AI智能体,将比人类还要多」。

那么,如果这些AI也有企业文化,会怎样?

它们是否也像人类一样,既有手握决策大权的AI,也有苦哈哈干活的AI。

几个月前,OpenAI曾被曝出,内部定义了五级AGI路线,L5——组织者:可以完成组织工作的AI。

这所说的,或许就是未来公司的组织架构图。

因为多个智能体的合作,正在崛起。

此前,一项研究表明,拥有30+AI智能体系统,在几乎任何任务中,都优于简单的LLM调用,同时还减少了幻觉,提高了准确性。

论文地址:https://arxiv.org/pdf/2402.05120

但是,多个智能体之间,应该如何进行实际协作呢?

在探索改善AI在软件工程任务中的表现的方法时,Alex Sima突然有了灵感:

如果将AI智能体之间互动机构化,让其类似于科技巨头的「组织架构图」,会怎样?

接下来,Alex让AI接管了6大科技巨头——亚马逊、谷歌、微软、苹果、Meta、Oracle,看看它们如何协作。

先来一张图,感受下。

关键要点


以下是,Alex将AI智能体,组织成类似苹果、微软、谷歌等公司结构后,得到的一些关键要点:

- 有多个「竞争」团队(即竞争生产最佳最终产品)的公司,如微软、苹果,表现优于集中化的层级结构。

- 具有单点故障(比如一个领导者做出重要决策)的系统,如谷歌、亚马逊和Oracle,表现不佳。

- 大型科技公司的组织结构,对问题解决能力有适度但明显的影响。

AI智能体与科技巨头组织


之前通过简单增加AI智能体数量,来提升性能的方法,比如SWE-bench,并未取得显著的成效。

这表明,仅仅依赖数量的增加,并不能解决问题。

那么,有什么其他的方法可以让AI智能体在软件工程方面变得更好?

三周前,Alex偶然看到了James Huckle关于「康威定律」的一篇文章——软件和产品架构注定会反映创造它的组织结构。

James展示了一幅插图,揭示了亚马逊、谷歌、Facebook、微软、苹果和Oracle的戏剧化组织结构,并提出了一个想法:

就像大型科技公司中的人类一样,多智能体通信结构可能会塑造问题解决方法。

Alex受到启发,决定在SWE-bench实例上测试James的假设。

实验设置


作者将AI智能体组织成不同的公司结构,在SWE-bench-lite的13个实例「mini」子集上,评估了六种不同的组织结构。

在构建这六种组织时,他基于一些核心观察设计了多智能体组织结构:

亚马逊

顶层有一个「管理者」的二叉树。

为了复制这一结构,Alex使用了大量执行代码库搜索的智能体,和一个最终执行代码库更新的单一智能体。

谷歌

类似亚马逊的树状结构,但中间层之间有更多连接。

Alex通过在单一层内聚合复制所有智能体结果,并将其传递给下一层的智能体。

Meta(Facebook)

缺乏层级结构,但仍是一个智能体之间有许多连接的网状组织。

Alex通过增加不同智能体之间的转换可能性,来修改原始的智能体设计。

微软

强调竞争团队,每个团队有自己的层级。

本质上,Alex重新调整了亚马逊的结构(减少智能体数量),并使用向量相似性投票方法,从三次单独运行中选择「最佳」解决方案(每次运行对层级结构略有调整)。

苹果

许多小型竞争团队,每个团队都有自己的最小结构。

Alex使用了与微软相同的「最佳解决方案」方法,但进行了更多没有智能体层级的运行(每次运行有不同的转换)。

Oracle

有两个不同的团队,一个较大的「法律」二叉树和一个较小的工程树。

Alex将法律团队解释为,搜索代码库和检索关键上下文的智能体,而工程团队由实际编写代码的智能体组成。

两个团队的结构类似于亚马逊,顶层有一个单一智能体协调「法律」和「工程」之间的信息传递。

评估结果


为了评估SWE-bench上的每组patch,作者使用了SWE-bench evaluation。

结果如下:

组织结构图绩效分析







请到「今天看啥」查看全文