专栏名称: 范阳
Being more human, less perfect.
目录
相关文章推荐
21世纪经济报道  ·  租出去,一天最高1.5万元,10多天回本!抢 ... ·  13 小时前  
神嘛事儿  ·  我回答了 @bala-------bala ... ·  2 天前  
51好读  ›  专栏  ›  范阳

自然启发的集体智能( CI ), “智能体们开会”( MAD ) 与 AGI

范阳  · 公众号  ·  · 2024-04-16 20:51

正文

我们每一个人都是地球上目前唯一的拥有通用智能 ( general intelligence ) 的存在,而人类通过交流和协作聚集在一起,也是目前这个世界上最强的超级智能 ( super intelligence ), 它是一种集体智慧和能力,就像我们身体里数十万亿个细胞组成了 “我” 一样。但是,这里一定有个 “但是” ,人类的 “通用智能” 也远未到达高峰,一方面人类能去创造有一天超越我们自身的通用智能,另一方面人类智能的上限也并没有达到,我们还可以更 “通用” ( 想象一下遥远的未来人类在别的星球上也可以成为通用智能体 ),也可以更有智慧和能力,成为 “super general intelligence” ,但是做到这一点,我们会需要和其他人以及其他智能形式合作。

今天分享一篇有关于集体智能 ( Collective Intelligence ) 和通用人工智能( AGI ) 发展路线的文章。

提到这个话题首先是因为和我的朋友们过去两个月讨论到人工智能实验室科技公司 Sakana AI ,以及横跨人工智能与合成生物技术的研究者 Michael Levin ,他们都从 “自然界的智能形态” 以及 “生物系统的智慧” 得到启发,在实践把集体智能 ( Collective Intelligence )作为一种方法论和哲学观点,来创造先进的人工智能系统。

相比于现在主流的机器学习研究,Sakana AI 和 Michael Levin 都相信创造智能可以更有创造力一点,应该能找到一些 “不一样的东西”。


Sakana AI:自然启发的人工智能与进化算法

Sakana AI 是一家 “人工智能实验室+ 初创科技公司 ”,位于日本东京,2023 年就吸引我的注意因为他们的理念强调 “自然与生物进化带来的启发”,这也与他们的创始人之一 David Ha 来自日本有关 ( David Ha 曾经在 Google Brains 日本办公室, Sakana的另一位创始人 Llion Jones 是谷歌 Transformer 论文的联合作者之一 )。



David Ha 在他的个人网站阐述了自己的核心理念:

“ 在计算资源似乎十分丰富的今天,人们对扩大机器学习规模、在更大的数据集上训练越来越大的模型充满了期待和兴奋。然而, 智能生命的诞生并不是源于资源的丰富,而是源于资源的匮乏。进化自然地选择能够用更少资源实现更多功能的系统。 我们可以看到许多这种资源瓶颈的例子,它们塑造了我们作为一个物种的发展:从大脑的连接方式,到我们的意识如何处理抽象思维,再到我们如何通过绘画和手势传达抽象概念,进而发展成语言、故事和文化。这种瓶颈是否是智能出现的必要条件还有争议,但我们自己的智能无疑是资源受到约束的结果。 我对研究智能是如何在有限的资源约束下产生的很感兴趣。”


Michael Levin

美国塔夫茨大学的 “合成生物学+人工智能” 研究者 Michael Levin 教授是我最关注的科学家之一,也给了我许多启发。 Michael Levin 的研究理念和在开发的技术今天先不赘述,他发表在《自然》杂志最新文章感兴趣的朋友值得一看:

《 集体智能:一个统一的概念,用于整合不同尺度和基质的生物学 》

(Collective intelligence: A unifying concept for integrating biology across scales and substrates )

Sakana AI 的 David Ha 也在社交媒体上转发了 Michael Levin 的这篇文章。

我的观点是虽然机器学习和计算机科学会越来越接近数学和物理层面的创新,以及当今生命科学领域在等待人工智能的突破来驱动新的生物技术大发现。但是, 生物学和 “自然智能” 其实可以更积极主动地去影响人工智能与计算(机),集体智能和进化算法也许是一个好的起点。

下面分享这篇科技博客文章,来自 Michael Dempsey,他是我欣赏的一家研究和主题驱动的( research-centric, thesis-driven )前沿科技投资基金 Compound VC 的创始合伙人。要注意一下,这篇文章里他提到的集体智能 ( Collective Intelligence )是一种探索实现 AGI 的工程方法,主要是指通过多种 AI 智能代理( multiple agents ) 的互动,博弈和合作来实现的,和 Sakana AI 以及 Michael Levin 所涉及的 “ 集体智能” 只在思想上是接近的,而具体工程方法和研究抽象层级并不一致, 我想也许以后也会有 “ 多种多样集体智能的集体智能之母 ” 出现,就像 “大自然” 一样。

希望这篇文章对你有启发。




集体智能、多智能代理辩论与通用人工智能

COLLECTIVE INTELLIGENCE, MULTI-AGENT DEBATE, & AGI

作者:Michael Dempsey

编辑:范阳

写作时间:2024年1月23日


引言

是什么神奇的诀窍让我们变得具有智能?诀窍就是没什么诀窍。智能的力量源于我们巨大的多样性,而非任何单一、完美的原则。

— 马文·明斯基

What magical trick makes us intelligent? The trick is that there is no trick. The power of intelligence stems from our vast diversity, not from any single, perfect principle.

— Marvin Minsky


提高人工智能性能的前沿研究

THE FRONTIERS OF INCREASING AI PERFORMANCE


在过去的几年里,人们在利用 transformers 架构 + 扩展法则( scaling )提升机器学习性能( the performance of machine learning )方面做了大量工作 。与此同时,人工智能还通过更先进的提示词工程 ( more advanced prompt engineering )、思维链( chain of thought )、扩展上下文窗口长度 ( expanded context windows )、RAG 等数据调用管道( data-calling pipelines )、专家混合模型( mixture of experts models )以及最近的合并模型 merged models( Frankenmerges 弗兰克斯坦怪物合并是我最喜欢的这种命名 )等方式不断提高性能。

范阳注:检索增强生成( RAG )是指对大型语言模型的输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。

合并模型和算法的说明: https://huggingface.co/blog/mlabonne/merge-models

现在除了以 Transformer 架构为驱动的主流方法的共识之外,人工智能领域的一小部分人已经转向研究像 HYENA、RWKV、Mamba 等所使用的新颖架构,这些架构旨在解决纯 Transformer 架构所面临的许多困难。

范阳注:

HYENA 论文 https://arxiv.org/abs/2302.10866

RWKV 论文 https://arxiv.org/abs/2305.13048

Mamba 论文 https://arxiv.org/abs/2312.00752

所有这些努力都是为了拥有更好、更快和更广泛的知识范围( to have better, faster, and larger scopes of knowledge )和/或 “更正确” 的知识( “more correct” knowledge ),同时提高模型效率。尽管模型一直有所改进, 但我们是否真正见到了创造力的出现还有待商榷( it is debatable if we have seen creativity really emerge ),并且使用大语言模型 LLMs 生成高度新颖见解( highly novel insights generated using LLMs )的例子寥寥无几。

简而言之, 人工智能在快速达到二元正确答案( getting to binarily correct answers quickly )方面表现出色,但目前尚不清楚它是否在具有创造性思维和 / 或非确定性问题上( creatively minded and/or non-deterministic problems )具有与人类独特的性能优势。

范阳注:类似于 Stable Diffusion 这样的 “图像生成”人工智能模型,它可以把接近人类 “绘图成像能力” 压缩在一个 2GB 的文件里,这个2GB的文件就像是它的“大脑”,但是这个 “大脑” 目前没有人类独特的创造力。

在 MAD( Multi-Agent Debate,多代理辩论框架 )中的研究人员甚至注意到,无论用户如何推动(regardless of the pushing from a user ),“ 一旦大语言模型 LLM 对其生成的答案有了自信,即使最初的立场是错误的,它也无法通过自我反思( self reflection )产生新颖的想法。” 他们称之为思维的退化( Degeneration of Thought )

范阳注:MAD ( Multi-Agent Debate, 多代理辩论框架 ) 是指大语言模型之间的多代理辩论过程,来提高语言模型生成的答案当中事实的正确性,以及推理的准确性。但是这种方法的局限就是浪费额外的计算资源,有点像你自己不确定一个事情,你要组织一个线下研讨会和各个“高手” 切磋辩论,但是可能辩论会结束还是没有得到更好的答案。

来自中国研究者的 MAD 的论文: https://arxiv.org/pdf/2305.19118.pdf

与人工智能漫长历史当中的许多人一样,我不禁好奇解锁创造力和提高性能的解决方案是否可以来自更 “生物学” 的方法 ( if the solution for unlocking creativity and increasing performance can come from a more “biological” approach )。 真正的通用人工智能是否不应该来自将所有人类知识提炼成一系列权重,而是来自观察那些出色的 “实体” 之间的辩论和对话 ( Will true AGI come not from distilling all of human knowledge down to a series of weights, but from observing the debate and conversation amongst brilliant entities)?

这就是集体智能( CI )和多代理辩论( MAD )的价值。


集体智能:核心前提及其演变

COLLECTIVE INTELLI GENCE: THE CORE PREMISE AND ITS EVOLUTION


“ 在许多情况下,个人做出的决策可能缺乏多数人决策所具有的精确性。集体智能是一种共享的或群体智能,一种将许多人的意见汇集成决策的过程。 它源自各种实体之间的合作和竞争。这种智能表现在细菌、动物、人类和计算机网络中,以各种基于共识的决策模式出现 ( appearing in various consensus-based decision-making patterns )…

…通过利用代理社会内的交流和进化,可以模拟生物社会中观察到的进化过程,进行社会学实验,并获得可能推动人类社会进步的见解。

— 《大型语言模型代理的崛起与潜力:一项调查》( The Rise and Potential of Large Language Model Based Agents: A Survey)”


围绕这些概念的完美命名约定充其量只是灰色地带。上图来自论文 《人工集体智能工程:一项调查》

范阳注:上面两张图来自这篇又关于“自然集体智能” 以及 “人工集体智能”的论文

https://arxiv.org/pdf/2304.05147.pdf

AI 社区描述 “集体智能”( collective intelligence )的方式有很多,都充满了各种命名约定和细微差别。 我们将集体智能 ( Collective Intelligence )视为研究将各种意见汇集成决策的广泛研究领域( the broader study of a variety of opinions being consolidated into a decision ),而多代理辩论( Multi-Agent Debate )则是一种机制,非常适合大语言模型 LLMs 参与其中。

我们认为,所有这些都围绕着一个前提,即使用各种实体,这些实体体现了特定的原则、数据、观点等,从而得出细致入微的答案或见解的集合。 这些代理通常由类似人工智能协调者( AI Orchestrator )管理,该协调者的任务是完成一套更高层次的目标/标准,并采取行动推进讨论发展

我最初是通过使用扩展了更大上下文窗口的前沿大语言模型 LLMs 实现的更复杂提示词来进行多代理辩论的实验。第一个例子是使用称为 HIVE( Highly Intelligent Virtual Entities,高度智能虚拟实体)的提示结构,您可以在下面的示例中查看其结果 ——

HIVE 提示词:

背景:我想要创办一家利用人工智能分析音频以早期检测疾病的公司( start a company that uses AI to analyze audio for early detection of diseases )。我希望它能够在 7 年后实现每年至少 2.5 亿美元的收入。我想知道应该从哪些产品开始,哪些研究论文支持创建这些产品,以及我的前 5 个客户应该是谁。我还想知道该收取多少费用以及原因是什么。

返回结果:

启动与 5 个虚拟实体( Virtual Entities )的 HIVE MIND 会话以解决这个提问:

伊芙琳:人工智能技术专家( 个性特点:创新、分析、直接 )

马库斯:医疗保健行业专家( 个性特点:经验丰富、坦率、战略性 )

莱昂:财务分析师( 个性特点:细致、现实、直言不讳 )

索菲亚:法律和合规顾问( 个性特点:严谨、道德感、实用主义 )

妮娜:消费者行为分析师( 个性特点:有洞察力、有创意、诚实 )

伊芙琳:我们正在研究将人工智能集成到音频分析中,以早期检测疾病。这是前沿技术,但我们不要忘记建立强大高鲁棒性的人工智能模型的重要性。我建议我们首先确定具有明显听觉标记物的疾病( identifying diseases that have distinct audible markers )。研究论文已经显示,从咳嗽声中检测呼吸道疾病的潜力。让我们把重点放在这上面。

马库斯:同意你说的,伊芙琳。呼吸道疾病是一个很好的出发点。然而,医疗保健行业受到严格监管。我们必须确保我们的产品符合医疗标准并具有必要的认证证书。与医疗机构合作进行临床试验可能至关重要。

莱昂:从财务角度来看,我们必须考虑开发成本与我们七年 2.5 亿美元收入目标之间的关系。投资于坚实的研发至关重要,但我们需要一条清晰的盈利路径。我们应该考虑采用订阅模式( a subscription-based model )以持续获得收入。

索菲亚:当你们都在关注产品和财务时,不要低估了监管方面的障碍。我们需要应对 FDA 的批准和数据隐私法律,特别是美国的 HIPAA 法律。这不仅仅是关于创造产品,而是确保它在法律上合规。

妮娜:了解我们的客户至关重要。我们应该针对那些身份是“技术早期采纳者” 的医疗保健提供者( target healthcare providers who are early adopters of technology )。他们更愿意将我们的解决方案整合到他们的工作实践中。至于定价,它应该反映我们在提高诊断准确性和节省时间方面提供的价值,但我们也必须考虑市场能承受的价格。

(暂停)

您希望虚拟实体如何继续进行?

继续 (Continue)

总结 ( Summary )

对立观点 ( Devils Advocacy )

向用户提问 ( Ask the User Questions )

或提供您自己的输入以继续对话 ( Or provide your own input to continue the conversation )

“示例结束”( 用户将在此处继续推动对话进行 )

HIVE 的核心前提是你有一个由 5 个实体组成的蜂群意识( a hive mind ),它们可以讨论和辩论一个给定的任务,并内置提示词以通过用户输入进一步推动对话。 每个实体都被赋予一个名字、一个背景和一些性格特征,这些特征可以由用户编程,也可以根据给定的任务由 LLM 自动创建。它在鼓励和模拟我认为可预测但有时引人入胜的辩论方面表现得相当不错。

上图来自:A Survey on Large Language Model based Autonomous Agents

随着我们逐渐远离简单的提示词,我们开始看到一系列更先进的基于LLM的自主代理的爆发,涉及各种类型的代理,并配备了各种类型的基础设施。


2023 年出现了大量的研究和使用案例

AN EXPLOSION OF RESEARCH AND USE-CASES IN 2023


随着许多人开始注意到 MAD 框架的能力,该概念的新技术实现落地开始加速。其中最引人注目的可能是微软的 AutoGen 和 CrewAI,它们都旨在提供核心基础设施以实现多代理辩论的能力。我们还看到了类似的项目,如MemGPT 或 SocialAGI,它们为用户创建了具有“无限”上下文的自更新模型( self-updating models for the user with “infinite” context ),以及使用模块化草稿本方法调整代理( a modular scratchpad approach for adjusting agents )的 RAISE。

范阳注:

AutoGen https://microsoft.github.io/autogen/

CrewAI https://github.com/joaomdmoura/crewAI

MemGPT: https://github.com/cpacker/MemGPT

SocialAGI:https://www.socialagi.dev/

RAISE:https://arxiv.org/abs/2401.02777



这引起我的关注的一大部分原因,是因为《生成式代理:人类行为的交互式模拟》( Generative Agents: Interactive Simulacra of Human Behavior )创建了一个沙盒环境,代理可以自主采取行动,记忆和反思这些行动,然后将洞察力存储为记忆( stored the insights as memories )。

人们很快就对 repo 进行了分叉,从而推动了各种实验和界限,以了解我们能从这些在这个世界中协作和生活的代理身上学到多少东西。尽管如此,尽管它非常有趣,但由于环境过于开放,目前还无法取得有意义的成果。

许多论文基于这一想法( 以及其他许多关于生物智能的想法 ),以建立更专注于集体智能( Collective Intelligence )和 MAD 系统的用例。


TradingGPT 通过在代理和多代理辩论中使用分层记忆协调不同的角色来建立交易策略和做出投资决策(orchestrating distinct characters using layered memory in agents and debate to build trading strategies and make investment decisions.),有效地模拟了一个对冲基金。

范阳注: TradingGPT

https://arxiv.org/pdf/2309.03736.pdf

他们的文章摘要描述了这个框架:

GPT 的有效性在于它们能够解码人类指令,这种能力是通过在其记忆系统中将历史输入作为一个整体进行综合处理而实现的。然而,GPT 的记忆处理模式并没有精确模拟人类记忆的层次性质,人类记忆被分类为长期、中期和短期层次。这可能导致大语言模型 LLM 难以有效地优先处理即时和关键任务。为了弥补这一差距,我们引入了一个具有分层记忆的创新 LLM 多代理框架( an innovative LLM multi-agent framework endowed with layered memories )。


上图来自:ChatGPT Research Group for Optimizing the Crystallinity of MOFs and COFs

https://pubs.acs.org/doi/suppl/10.1021/acscentsci.3c01087/suppl_file/oc3c01087_si_001.pdf

到 2023 年,涌现出了更多的研究,涵盖了从简单/装饰的 CoT 提示机制到先进的检索动态( advanced retrieval dynamics )再到新颖的记忆架构( novel memory architectures )等各种领域。这些用例包括设计、教育、医学、化学实验室工作、社会科学研究、科学论文审稿,甚至包括世界大战等等。

范阳注:War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars

为了进一步探索,我强烈推荐阅读包括 2023 年 9 月发表的一篇论文:

https://arxiv.org/pdf/2308.11432.pdf

另一篇 2023 年 9 月发表的论文:

https://arxiv.org/pdf/2309.07864.pdf

以及 2024 年 1 月发表的一篇论文:

https://arxiv.org/pdf/2401.03428.pdf

范阳注:上面推荐的论文都来自中国的研究者和单位。

使用多代理辩论通过鼓励大型语言模型的多样化思维,可以提高传统 LLM的性能。

以上这些工作的主要基础是它们能够相对或绝对地提高性能。此外, 由于辩论模式而不是提示->答案( prompt -> answer )模式,它们使人类和模型能够更加深入地反思 LLM 的输出。


关于计算资源限制的说明

A NOTE ON COMPUTE CONSTRAINTS


讨论集体智能时经常出现的一个永恒问题是需要多少计算资源来推动前沿。我的观点是,我们可以广泛地看待前沿模型,这些模型每周都在探讨类似的权衡问题。

MoE 模型和合并模型( merged model )架构代表了在这个方向上的重大进步。 这两种架构创新或许都表明,实现突破性的性能提升既取决于战略性的架构创新( strategic structural innovation ),也取决于原始计算力量( raw computational power ),确保每个计算单元都被最大化利用 。如果我们相信这一点,我认为我们不会不进行类似的架构实验,从优化为辩论的单个 MoE 模型,一直到同时使用多个模型( 并正确同步它们的学习 ),进行多代理辩论 MAD。


集体智能的发展

THE PROGRESSION OF COLLECTIVE INTELLIGENCE


剑桥大学学生:“ 要实现通用人工智能 AGI,我们是否只需不断优化语言模型,还是还有其他突破尚未发现来实现 AGI?”

OpenAI的CEO Sam Altman:“我们需要另一个突破。我们仍然可以在大型语言模型上投入很多努力,我们会继续这样做。我们可以攀登我们目前所处的高地,并继续攀登,而距离那个顶峰仍然相当遥远。但是,理性地说,我认为这样做不会( 让我们达到 )AGI。如果(例如)超级智能( super intelligence )不能发现新的物理规律,我认为它就不是超级智能。教大语言模型克隆人类的和人类文本的行为,我认为这样做不会实现 AGI。因此,在人工智能领域中长期存在这样一个问题:除了语言模型之外,我们还需要做些什么来制造一个能够发现新的物理学的系统( what do we have to do in addition to a language model to make a system that can go discover new physics )?”

— 萨姆·奥特曼和 OpenAI 团队获得 2023 年霍金奖学金时接受提问

随着我们在人工智能领域取得不断进步,集体智能(Collective Intelligence )和多代理辩论 MAD 可能会产生重要的社会性和技术性影响。


辩论代理的选择

THE SELECTION OF AGENTS FOR DEBATE


作为人类个体,我们可能训练代理来代表我们自己的利益,利用私人的和外部数据来做出或模拟我们的决策。这可能被视为我们自己的克隆体,也可能被视为我们的副驾驶、首席人事助理,或行政助手,这取决于我们如何编排和提供数据和背景信息。

我们还将使用仅面向外部的代理(external-only facing agents),如Delphi 制作的代理。这将导致更复杂的合并代理( merged agents ),其中包含各种实体( entities ),这些实体可以在给定的角色中进行关联。在某种程度上,这是 “传统” 集体智能的一个子集,其中给定领域专家的累积智慧( the cumulative intelligence of given domain experts )创造了一个主实体( a master entity ),与其他主实体进行辩论,就像让经济学家( 由许多经济学家代理的知识组成 )与市场分析中的交易员进行公开市场分析的辩论。



人类的角色

THE ROLE OF HUMANS


在一个由集体智能驱动的世界中( a Collective Intelligence driven world  ),人类可能会在任务的有用性上经历一系列进展,最终变成数据输入者( serving as data input ),而不是真理的仲裁者( arbiters of truth )。

首先,人类将扮演给定任务的最终编排者的角色( the ultimate orchestrator of a given task )。我们已经在使用 HIVE 中经历了这一点,因为它实现了人类反馈机制来引导代理辩论,以及在 ChatGPT 中使用定制指令,模型根据上下文提出进一步的探索性问题,然后用户选择前进的方向。

尽管现在这些建议在大约 30% 的时间内都是理想的,我们预计 LLMs 将在提出建议方面变得更加熟练( more proficient at iterating suggestions )。这种技能将发展成为 AI 编排者( AI orchestrators ),以某种形式推动对话的百分比高于人类,最终将绝大多数多代理辩论推向自我对弈的形式( advancing the vast majority of multi-agent debate towards a form of self-play )。


自我对弈、自我奖励语言模型和合成数据

SELF-PLAY, SELF-REWARD LANGUAGE MODELS, & SYNTHETIC DATA


亚历克斯·伊尔潘( Alex Irpan )最近发表了一篇我读过的关于AI领域现在状态的最好的文章之一。

在文章中,他讨论了 OpenAI 团队对 “自我对弈” 机制的持续追求,以及他们相信如果正确执行的话,这对推动智能发展的巨大价值:

引用 Alex Irpan 文章里的话:

“ 很久以前,当 OpenAI 还在进行游戏 / 模拟环境中的强化学习时, 他们非常注重 “自我对弈” ( self-play )机制。你让代理程序与自身的副本进行对抗,评估它们的互动,然后更新模型以使互动中的回报更高 ( update the models towards interactions with higher reward )。 经过足够长的时间,它们通过竞争学会了复杂的策略。

当时, 我记得伊利亚( Ilya )说他们很关心自我对弈,因为它是一种将计算转化为数据的方法







请到「今天看啥」查看全文