专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
杭州发布  ·  好消息!杭州机场高铁迎突破性进展! ·  3 天前  
杭州发布  ·  好消息!杭州机场高铁迎突破性进展! ·  3 天前  
IPO早知道  ·  追觅科技CES ... ·  1 周前  
上海科创汇  ·  公示|2024年度奉贤区服务业发展引导资金拟 ... ·  1 周前  
51好读  ›  专栏  ›  将门创投

AdaSociety:智能体的“动态社交演练场”

将门创投  · 公众号  · 科技创业  · 2025-01-08 08:22

正文

复杂动态环境是孕育和检测智能的关键。环境的复杂性可以被划分为物理复杂性与社会复杂性。在AI世界中物理复杂性已被广泛研究。智能体在虚拟环境中自由探索和环境中的物体交互,而社会复杂性同样不可或缺。当智能体融入社会要面对复杂的社交关系与社会规范,只有同时应对好物理复杂性与社会复杂性,AI 才能真正迈向通用场景。

基于此北京通用人工智能研究院推出创新成果AdaSociety,它构建了一个多智能体决策环境,支持开放式物理任务和自适应社交结构,填补AI研究重要空白。AdaSociety 不只有物理任务,更是充满社会复杂性的智能体决策场。在这里智能体要学会处理开放式任务,还要学会与其他智能体建立关系、协商合作,甚至创建以自己为核心的社会组织。


论文标题: 

AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making

论文链接:

https://arxiv.org/abs/2411.03865

一、背景

复杂动态环境孕育、检测智能。在现有的经典环境中,虽然如我的世界(Minecraft)[1] 和多关节接触物理引擎(Mujoco)[2] 等平台能够模拟复杂的物理场景,却往往缺乏多智能体之间的互动;而如胡闹厨房(Overcooked)[3] 和 AI经济学家(AI Economist) [4] 等环境虽然聚焦于智能体之间的交互行为,但其物理任务的复杂性较为单一。

事实上,环境的复杂性来源于两个重要维度:物理复杂性与社会复杂性缺少任意一方面都会导致智能体能力的局限性,使其无法在真实世界中表现出完整的适应能力。然而,目前兼具这两种复杂性的环境仍然是一个空白。

为了解决这一问题,通研院研究团队提出了一个全新的多智能体环境——AdaSociety。该环境高度可定制,融合了不断扩展的物理空间与自适应的社交结构。

在这个环境中,智能体不仅要在复杂的地图中探索资源、完成任务,还要与其他智能体建立并维护各种社交关系,共同应对挑战。这种设计使得AdaSociety能够生成大量且多样化的任务,为智能体的学习和决策提供无限可能。

二、动态物理环境

在AdaSociety中,智能体在环境中移动,通过采集资源与合成资源获取收益。有些资源是自然资源,可以从环境中直接采集;另一些资源是人造资源,需要在环境中特定的事件格上消耗手中的资源来制造。

随着智能体的采集,新的资源和事件会不断出现,发现/生产出不同的资源就可能看到并生产新的资源,任务空间随之不断扩展,为智能体提供持续的学习和探索空间这就像人类社会在发展中不断产生前所未见的发明与发现。

在环境中,研究人员默认设置了15种资源与8种事件,他们之间的合成关系构成了一个复杂的“合成树”。此外,智能体也具有异质性,智能体可能对资源有不同的价值偏好,他们的背包能够承载的各资源容量也可以不一致。
图 AdaSociety中包含各种各样的资源与不同的事件。在事件区域可以进行资源合成形成新的资源,合成关系形成了上图中的“合成树”。

三、显式社会结构

智能体在AdaSociety中可以建立各种社交关系,这些关系会直接影响它们的决策和信息获取。在人类社会中,人们会分享利益来寻求合作共赢,也会分享所见所闻来开阔视野。在AdaSociety中,智能体也是如此。它们自主选择合作伙伴,协商利益分配,甚至创建自己的团队或组织。

AdaSociety的社交结构通过一个多层次有向图来表示,基底层的节点表示智能体个体,而高层的节点表示组织。每个智能体可以与其他节点建立不同属性的连接,也可以断开已有的连接。

不同属性社会连接可能具有不同效果。比如他们可以形成点对点之间的社交关系以共享视野,也可以通过与共同高层节点连接来形成利益共同体,共享所得收益。智能体之间、智能体与组织之间错综的连接形成复杂社交网络。

图 AdaSociety的社交结构——多层有向图。第0层的节点表示智能体个体,更高层的节点表示组织,有向边表示节点间的关系,每个节点可以与同层或相邻层的节点建立不同属性的联系。

四、任务设置

AdaSociety中内置了三个社交复杂度递进的任务。在任务Social Structure中,智能体会在给定的社交关系与给定的利益分配函数下进行行动。在任务Contract中,智能体在一开始可以选择自己的利益共同体组织,在同组织成员共享收益的条件下进行行动。在任务Negotiation中,智能体之间会先进行谈判,确定合作对象,并谈判利益分配方式,在谈判达成共识下进行行动。

图 AdaSociety内置的三个任务,对于社交关系和利益分配函数的可操作程度不同

AdaSociety提供了丰富的接口和定制选项,允许研究者根据自己的需求调整环境参数,轻松创建各式各样的任务。除了使用环境提供的内置内容以外,用户还可以通过JSON配置文件轻松定制自己的资源、事件、社会联系属性、智能体的资源偏好、背包容量以及环境初始条件等。研究人员也提供了多个API允许用户对智能体和环境进行更复杂的更改。

五、基线测试

AdaSociety支持基于神经网络的、基于语言模型的和基于规则等多类型智能体。研究团队在代码中给出了一些应用示例。研究人员测试了多个经典的决策算法,以及基于大语言模型规划器+启发式控制器的决策方法,并用多种性能评估指标,如个体奖励、公平性得分、完成率以及社交网络的平均度数和最大度数等,全面评估智能体的性能。

结果表明:当前方法均未能十分有效利用AdaSociety提供的可变的社会结构来形成合作,不过先验知识的引入对于提升算法性能有很大的作用。比如,当研究人员给算法设计由易到难的课程进行学习时,算法能够更好地学习出形成团体并合作,在给大语言模型配上带有环境先验知识的启发式控制器后,它的效果也会比PPO等不具有先验知识的算法更好。

总体而言,AdaSociety对于现有的决策方法具有合理的复杂水平。
图  在任务Social Structure中,给定不同的社会结构,PPO算法的单轮收益情况(图左1);在社交结构会在固定时间变化的环境Social Structure-Dynamic中,各基线算法的单轮收益情况(图中);在Social Structure-Dynamic中,各基线算法的训练曲线(图右)。可见社会结构会显著影响算法收益与训练。带有先验知识的课程学习方法会比纯RL方法有更大优势。
图  在任务Contract(上排)与Negotiation(下排)中,各基线算法的公平性(第一列)、合成资源量(第二列)、形成组织的最大人数(第三列)、形成组织的平均人数(第四列)。课程学习方法有助于合成更多的高级资源并形成规模较大的组织。
图 LLM规划器+基于规则的控制器在各任务上的表现。可以合成较多的高级资源,但是在最困难的Negotiation任务上没有形成大型的组织,没有达到最优的效果。

六、结语

AdaSociety是一个富有挑战性的“动态社交演练场”,有助于深入探索智能体在复杂动态环境中的决策机制、合作策略以及社交动态。我们期望通过这一平台,测试智能体同时应对物理复杂性与社会复杂性的能力。

随着人工社会智能不断发展,AdaSociety将会成为更多研究者探索通用智能体的重要平台,为多智能体系统设计和优化提供了试验田。

参考文献

[1] Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, and Anima Anandkumar. Minedojo: Building open-ended embodied agents with internet-scale knowledge. Advances in Neural Information Processing Systems, 35:18343–18362, 2022.
[2] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In 2012 IEEE/RSJ international conference on intelligent robots and systems, pages
5026–5033. IEEE, 2012.
[3] Micah Carroll, Rohin Shah, Mark K Ho, Tom Griffiths, Sanjit Seshia, Pieter Abbeel, and Anca Dragan. On the utility of learning about humans for human-ai coordination. Advances in neural information processing systems, 32, 2019.

[4] Stephan Zheng, Alexander Trott, Sunil Srinivasa, David C Parkes, and Richard Socher. The ai economist: Taxation policy design via two-level deep multiagent reinforcement learning. Science advances, 8(18):eabk2607, 2022.

来源:公众号【北京通用人工智能研究院

llustration From IconScout By IconScout Store

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

[email protected]

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
[email protected]

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文