专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

AI同时操控200个机器人，任务成功率超90%，半数故障依然「能打」

学术头条 · 公众号 · 科技创业科技媒体 · 2024-12-21 09:44

主要观点总结

研究团队采用基于AI的控制策略成功让200个微型机器人协同完成复杂任务，成功率超过90%。该研究将多智能体强化学习（MARL）与反事实奖励（CR）机制结合，为微型机器人设计个性化奖励系统，引导其朝着集体目标努力。即使面临微型机器人集群研究中的挑战，如热噪声、环境噪声等，该控制策略依然表现出强大的鲁棒性。

关键观点总结

关键观点1: 研究团队采用AI控制策略成功操控数百机器人协同完成任务。

通过使用AI策略，研究团队成功让200个微型机器人变身为“AI智能体”，能够独立完成决策，在团队协作下实现复杂的集体行为。实验中，微型机器人完成“大件物品运输”任务的成功率超过90%，并在3000次动作内精确达成目标。

关键观点2: 采用多智能体强化学习（MARL）和反事实奖励（CR）机制。

研究团队结合多智能体强化学习（MARL）和反事实奖励（CR）机制，为每个微型机器人设计个性化的奖励系统，引导它们朝着集体目标努力。这种方法让微型机器人在协作中学会如何优化自己的行为，使整个集群的表现更加高效。

关键观点3: 微型机器人集群面临挑战及解决方案。

微型机器人集群研究面临诸多挑战，如热噪声、环境噪声、激光驱动方式的复杂性等。研究团队通过结合MARL和CR机制，将控制的复杂问题转化为如何设计合适的奖励函数，从而简化集体任务的控制过程。此外，通过引入反事实奖励机制，机器人能够根据个体贡献自动优化行为，无需依赖复杂的环境模型。

关键观点4: 实验成果与展示。

研究团队通过实验验证了微型机器人集群的可靠性和适应性。在鲁棒性测试中，即使20%至50%的机器人出现故障，集群依然能够保持较高的任务完成效率。在可扩展性测试中，研究团队发现当集群规模接近训练时的规模时，系统表现更佳。此外，研究团队还展示了微型机器人在运输生物样本、病毒检测、个性化药物释放等任务中的潜在应用。

关键观点5: 研究的局限性与未来展望。

尽管研究团队在微型机器人集群控制领域取得了显著进展，但仍面临一些挑战，如现有控制系统的驱动方式限制了其在复杂环境中的应用，微型机器人仍面临硬件相关的问题等。然而，研究团队表示这些微型机器人有望被用于运输生物样本、病毒检测等任务，未来随着技术的发展，我们或许可以在更广泛的应用场景中看到微型机器人集群的智能应用。

正文

人工智能（AI），可以同时操控数百机器人“协同作战”了。

来自康斯坦茨大学和国际理论物理中心的研究团队开发了一种基于 AI 的控制策略，成功让 200 个微型机器人变身为“AI 智能体”，独立作出决策，在团队的协作下实现复杂的集体行为 。

在实验中，微型机器人协同完成“大件物品的运输”任务的 成功率超过了 90% ，并在 3000 次动作内精确达成目标。

研究团队表示，这种控制策略可以训练成群的微型机器人 完成集体操纵或运输物体等任务 ，如移动微型机械、可编程给药胶囊和其他先进的片上实验室应用的复杂和自动化组装。

在演示模拟中，经过训练的微型机器人群成功在无法穿越的固定障碍物面前旋转以及把一根杆运输到特定位置， 甚至学会了利用结构化环境，将障碍物作为铰链来更高效地运输杆 。

另外，微机器人群还能完成更复杂的集体行为，如 同时旋转两根和三根杆 。在分布式控制框架的支持下，独立运动的微型机器人能够充分发挥各自的优势，相互协作，实现对多个物体的高效操控。

在技术实现上，研究团队采用了 多智能体强化学习（MARL）算法 ，并结合了 “反事实奖励”（CR）机制 ，为每个微型机器人设计了个性化的奖励系统，从而引导其朝着集体目标努力。

这种方法让微型机器人 在协作中学会如何优化自己的行为 ，使得整个集群的表现更加高效。

研究还发现，经过 MARL 训练的微型机器人能够有效克服热噪声和环境噪声，即使在一些蜂群成员出现故障时也能保持正常工作，还具有较强的鲁棒性。

在实验中，当 20% 的机器人出现故障时，集群的任务完成效率几乎不受影响；甚至 当故障比例达到 50% 时，集群的效率仍能维持 30% 的初始水平 。

相关研究论文以“ Counterfactual rewards promote collective transport using individually controlled swarm microrobots ”为题，已发表在科学期刊 Science Robotics 上。

值得一提的是，据个人主页显示，该论文的通讯作者之一顾红日（Hongri Gu）即将履新——从 2025 年 1 月起，加入香港科技大学，担任助理教授。

顾红日，本科毕业于浙江大学机电工程专业，在康斯坦茨大学物理系从事科研工作期间，他与该论文的另一位通讯作者 Clemens Bechinger 教授携手探究了活性物质集体状态应用，将强化学习融入到微型机器人集群研究，并研究了表面间的磁摩擦，这也是这项研究成功的关键。

成功率超 90% ，半数故障依然「能打」

受自然界群体行为启发，科学家们一直在探索如何让机器人集群协同完成复杂任务。无论是空中的微型飞行器、陆地上的机动立方体机器人，还是水中的机器鱼群，都表现出了群体协作的巨大潜力。

然而， 微型机器人集群研究仍然面临诸多挑战 。

在微观尺度下，热噪声、布朗运动等因素干扰了机器人的轨迹，同时激光等驱动方式在控制多个机器人时，由于彼此之间的强耦合作用，也进一步增加了精确控制单个微型机器人的复杂性。随着尺寸不断缩小，将传感器、微控制器、微执行器等集成到微型机器人中变得愈加困难，这也限制了其独立完成复杂任务的能力。另外，群体机器人控制通常依赖电、磁、声等全局场来实现集体行为，但通常比较简单且效率低下，难以满足复杂任务的需求。

为了克服上述挑战，研究团队结合“多智能体强化学习”与“反事实奖励”机制，将控制的复杂问题转化为如何设计合适的奖励函数，从而让每个机器人在协作中优化行为。

然而， 简单地给所有智能体赋予相同的团队奖励，容易引发 “懒惰智能体问题” 。因此，研究团队在学习过程中引入了反事实奖励机制，让机器人根据个体贡献自动优化行为，而无需依赖复杂的环境模型，简化了集体任务的控制过程。

图 | 受自然启发的独立控制微型机器人系统中的大型货物集体运输

研究团队首先聚焦于一个复杂任务——大型杆状物体的旋转。由于杆体尺寸较大且流体阻力显著，单个微型机器人无法对其产生有效作用，必须依靠集群的协同力量才能完成任务。

为了训练机器人完成这一任务，团队使用了由 30 到 35 个微型机器人组成的集群，并通过激光驱动控制它们围绕杆进行操作。 在训练初期，由于神经网络的初始权重随机，机器人行为十分混乱，几乎没有规律可言 。

然而，随着训练的进行，部分机器人偶然与杆发生碰撞，产生微小的旋转，并因此获得奖励。这一反馈促使机器人逐渐意识到与杆互动并推动杆是获取奖励的有效方式。

经过约 20 个回合的训练 ，机器人集群开始协调一致地从杆的两端施加推力，推动杆顺时针旋转。随着训练的深入，杆的旋转速度逐渐加快并趋于稳定， 机器人之间的协作效率显著提高，集群的整体表现也逐步优化 。

接下来，研究团队将任务难度提升，要求机器人将杆运输到指定位置，并朝着预定方向进行精准控制。为了精确判断机器人对任务的贡献，研究人员采用了反事实奖励机制，将杆划分为 60 个小片段，并通过这些片段间的成对距离变化来作为关键性能指标。

实验结果显示，微型机器人集群在不到 3000 次动作的训练中，成功将杆推送到目标区域，成功率高达 90% 以上。 在整个任务过程中，机器人集群在任务分解、策略选择以及协同操作方面显示出强大的能力 。

为了进一步验证微型机器人集群的可靠性与适应性，研究团队进行了鲁棒性和可扩展性测试。

在鲁棒性测试中