微米机器人团队“群策群力”:反事实奖励机制实现高效集体搬运
在微米尺度上实现自主集体行为一直是机器人学领域的一大挑战。近日,德国康斯坦茨大学(University of Konstanz)及其研究合作者在《Science Robotics》上发表的最新成果,展示了一套利用反事实奖励(counterfactual rewards)提升多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)效率的方法,成功使多达200个微米级机器人在噪声与复杂耦合条件下实现类蚂蚁群般的集体搬运。
自然界中,群体行为赋予了生物在捕猎、筑巢和运输上超越单体能力的协同效应。例如,蚂蚁群能携手将体型远超自身的物体高效运送至目标位置。在宏观尺度的机器人群体中,分布式控制与本地决策已被证明可带来灵活性、可扩展性和鲁棒性。然而,将这一理念缩小至微米尺度却困难重重。
首先,微型机器人尺寸在微米级别,植入传感器、控制器和动力源非常困难,导致其常需借助外场(如电场、磁场)统一驱动。这类统一激励方式虽曾实现微观粒子阵列的集体形态控制,但难以赋予每个机器人独立、灵活的决策能力。其次,微米机器人运动速度与布朗运动引发的随机热噪声相当,从而使得精确轨迹控制更加棘手。此外,当众多微型机器人在狭小空间协同运作时,相互之间的复杂物理耦合(包括热扰动、化学梯度变化等)会影响群体功能的实现。本研究中,科研团队利用激光点精确驱动的Janus微粒(直径约6微米,上半表面覆盖碳层)作为基本单元。激光驱动方式为每个微米机器人独立赋能,使其可以在前进、左转、右转、静止这几种基础动作中灵活选择(图1C示意)。在如此微小的尺度下,传统基于精确模型的控制策略常常因热噪声和复杂非线性效应而失灵。因此,研究人员引入多智能体强化学习(MARL)来训练机器人群体的策略网络,使其在未知条件下自适应地协调动作。然而,仅依赖整体绩效的奖励信号会引发经典的“懒惰代理”(lazy agent)问题:群体中某些机器人可能不作为,却依然因他人努力而获利,导致整体训练低效。为此,团队创新性地采用了“反事实奖励”机制,将群体表现与假设场景进行对照:通过在虚拟场景中暂时“移除”特定机器人,比较该移除情境下的群体表现与实际表现的差异,从而量化该机器人的独特贡献度。这一方法无需为每个机器人手工设计复杂的个体奖励规则,不仅摆脱了对精确模型的依赖,还能快速、客观地识别各个机器人在群体任务中的功效。1.构建独立驱动的微米机器人群体:研究人员精心设计了微米级Janus粒子,每个粒子在激光照射下可定向前进或转向。相比统一场驱动方式,该“点对点”的定向激励为实现独立控制与多任务并行提供了可能性。2.MARL训练与反事实奖励启用:在训练过程中,群体机器人通过局部信息感知周边环境与货物位置,并逐步尝试不同动作来推动大型载荷移动至指定目标。反事实奖励机制让每个机器人清晰了解自己的贡献情况,从而避免了因团队奖励信号过于混杂而导致的训练缓慢和低效问题。3.高效群体搬运与适应性验证:实验结果显示,在仅凭局部信息的前提下,多达200个微米机器人能协同将一根较大的棒状货物朝任意位置与方向精准推进。更为关键的是,这一策略在群体规模变化、单个机器人故障乃至环境扰动(如噪声、接触耦合复杂性)下仍表现出极佳的鲁棒性。4.扩展功能与潜在应用:研究团队还实现了同时操控多个独立物体的实验演示,从而进一步彰显了多智能体分布式控制策略的灵活性。这一研究为未来微米机器人体系执行微装配、可编程药物输送,以及芯片实验室(lab-on-a-chip)级别的先进应用开辟了新路径。本研究首次在微米尺度上将反事实奖励机制与多智能体强化学习有机融合,成功实现了高效而稳定的群体自主行为。由此可见,在不需要预设精确模型的前提下,微米机器人可以通过学习,不断适应内在噪声和复杂耦合的微环境。这为微米级群体智能的进一步发展提供了重要范例。未来,随着该策略在更多复杂任务中的应用,我们有望见证微米机器人群体在生物医疗、微机电加工、柔性电子器件组装以及精密化学合成等诸多领域展现出令人期待的潜能。该研究由德国康斯坦茨大学物理系及高级集体行为研究中心的Veit-Lorenz Heuthe,顾红日 (即将加入香港科技大学)及Clemens Bechinger团队,与意大利国际理论物理中心(ICTP)和Area Science Park数据工程实验室的Emanuele Panizon共同合作完成。论文以“Counterfactual rewards promote collective transport using individually controlled swarm microrobots”为题,近期发表于《Science Robotics》。通过此项工作,研究人员为微米尺度机器人群落的智能化、分布式控制奠定了坚实基础,也为开发更精巧和高效的微纳米级生产与组装技术指明了新方向。图 1:由自然启发,在单独控制的微型机器人系统中集体运输大型货物。(A) 一群蚂蚁集体将一个大型货物运输到目标地点。(B) 微机器人群可以执行类似的任务。每个微型机器人都受到单独控制,向前游动并将货物推向目标。(C) 在激光控制的微机器人系统中实施强化学习(RL)的示意图。由微型机器人及其策略组成的代理根据自身的观测数据选择行动,探索周围环境。经过一个时间步骤后,环境会反馈一个奖励,对代理的表现进行评分。策略会不断更新,以促进富有成效的行动(获得高回报),避免徒劳无益的行动(获得低回报)。在使用多机器人强化学习(MARL)优化机器人策略时,可以(D)对蜂群中的所有机器人给予联合奖励,或者(E)根据每个机器人的贡献给予奖励。单独分配奖励可减少奖励信号中的噪音,便于训练。图 2:系统示意图。(A) 多个 6 微米微型机器人和与之互动的 100 微米杆。虚线表示一个机器人的探测锥。机器人和杆对它们所在的锥体的观测值有贡献,并根据它们之间的距离进行反向加权。(B) (A) 中焦点机器人的观测值条形图。这十个观测值被用作人工神经网络(ANN)的输入,由该网络决定该机器人的行动。四种可能的行动是前进、左转、右转和停留。我们使用多代理强化学习算法来优化控制人工神经网络,使微型机器人群能够共同完成任务。(C) 在训练中,我们使用了反事实奖励方案。在旋转杆的任务中,对一个机器人 i 的这种奖励是通过杆的实际角速度和杆在没有机器人 i 的虚拟环境中的角速度之差计算出来的(更多细节请参阅 SI 中的奖励定义部分)。图 3:单个机器人的运动表征。(A) 单个机器人重复执行前进、停留、右转或左转四种可能动作之一的轨迹。机器人的方向显示为轨迹的颜色,并在每个动作的开始处用箭头表示。(B-E) 单个动作中机器人运动的统计评估。上行:一个动作中的 x 和 y 位移。在前进动作中,机器人沿其方向移动约一个直径(6 微米)。在旋转动作中,机器人平均向前移动不到半个直径(3 微米)。不过,位移方向的随机性远大于前进动作。下行:机器人在一个动作中的方向变化直方图。在前进和停留动作中,机器人平均保持其方向,但由于旋转扩散,其分布较宽,全宽值约为 30°。在一次旋转动作中,机器人向左右旋转 36°(一个探测锥的角度),全距均方根(FWHM)约为 17°(详见图 S3)。(F) (G)中两个碰撞机器人之间的距离(橙色)及其相对角度的时间变化。微游动体粘附的时间很短,在此期间方位的波动在很大程度上被增强,之后机器人再次分离。这种复杂的相互作用使微型机器人系统的建模变得困难,任何控制方案都需要考虑到这一点。(H-I)机器人与杆碰撞时也会出现类似的行为。这种现象使得对推向杆的机器人的控制变得更加复杂。图 4:训练微型机器人蜂群旋转大棒颗粒。(A) 机器人在训练过程中的行为快照,蓝色为机器人的轨迹,橙色为杆上两点的轨迹。(B-E) 杆的平均角速度(B)、机器人到杆的平均距离(C)、施加在杆上的平均扭矩(D)和机器人沿杆的分布(E)的变化,以及评估量的定义。阴影区域代表标准偏差。在训练的初始阶段,机器人主要学习向杆的方向导航(与杆的平均距离递减)。大约 20 次之后,机器人学会了如何对杆施加扭矩使其旋转。它们的策略是在杆的两端形成两个集群,从相反的方向推动杆(反在机器人沿杆的不对称分布上)。图 5:不同奖励方案的模拟比较。(A) 不同摩擦系数的旋转杆的最佳策略。在摩擦系数很低的情况下,尽管机器人的游动速度有限,但最好还是靠近中心推动杆,以获得较高的角速度。在摩擦系数较高的情况下,最好是推动杆的两端,并使用较长的杠杆使杆旋转(有关理想策略的更多细节,请参阅 SI 中的 “杆旋转的最佳策略 ”部分和图 S7)。(B) 训练后微型机器人策略的快照:当使用反事实奖励进行训练时,推动位置 P 非常适应杆的摩擦系数。(C) 在使用基于扭矩的奖励进行训练时,尽管微机器人的摩擦系数不同,但它们总是对着杆的两端推。这是由于人工设计的奖励函数引入了偏差,导致了次优表现。(D) 简单的团队奖励使机器人能够针对不同的摩擦系数学习不同的策略。然而,由于奖励的差异较大,机器人的性能和学习速度都较低(见图 S8)。(E) 使用三种不同奖励方案和不同摩擦系数训练的蜂群(单个点)在训练后的平均性能(实线)比较。(F)不同奖励方案和不同摩擦系数的杆在训练后的平均推动位置。对于每种杆的摩擦力,我们都在虚拟环境中用与 4 相对应的杆摩擦力在实验中评估了一个模拟训练模型。图 S9 显示了实验结果,即机器人沿杆的平均位置以及与 (E) 和 (F) 类似的性能。(G) 奖励比较总结,根据我们的经验,按照性能、奖励制定的难易程度、对不同环境的适应性、奖励信号的差异和学习速度对每种奖励方案进行定性排名。图 6:目标运输任务:(A)机器人的任务是将杆放入预定义的目标区域(蓝色标记)内。(B) 我们使用 60 个杆件和目标片段 k 之间成对距离 d_k 的负变化来衡量机器人的表现。在此基础上,我们为每个机器人计算反事实奖励,并在完成任务后给所有机器人发放成功奖励。(C) 在训练有素的机器人群中,机器人群采用以下策略来控制杆的三种运动模式:像旋转任务中那样推杆的两端以旋转杆,推杆的侧面以横向移动杆,沿杆滑动以纵向移动杆。(D) 训练后将杆运向目标的快照,以及用中心距和角度差表示杆相对于目标的轨迹的图表(E)。机器人首先将杆移至目标中心,然后旋转杆使其与目标区域对齐。橙色:200 个模拟事件的密度图,这些事件从相同的初始配置开始,采用训练有素的模型,表明这种行为是一种一致的策略。(F) 实验发现的策略(蓝色)与相反策略(红色)的比较,在相反策略中,机器人群首先旋转杆,然后运输杆。实验发现的策略涉及横向运输,而相反的策略涉及效率相当低的纵向运输模式。图 7:旋转任务中的可扩展性和鲁棒性:(A)在旋转任务中向训练有素的模型引入故障的示意图:机器人组中的一部分被随机分配一个动作,而不是其策略所选择的动作。每一步都会重新选择故障机器人集,以防止将故障机器人与正常机器人区分开来。(B) 故障给轨迹带来了额外的噪声,此处用粉红色标出。(C) 在没有额外训练的情况下,引入不同数量故障的机器人群的归一化旋转性能。对于多达 20% 的随机操作,性能基本保持不变。当故障比例非常高时,微型机器人会完全扩散,性能也会下降。(D) 机器人群的归一化旋转性能ω⁄ω_max,其大小在训练后发生变化。在训练时使用的机器人群大小附近,旋转性能最大。在机器人数量非常少和非常多的情况下,性能有所下降,但在一个数量级的范围内,性能保留了原来的一半。(E) 训练后机器人群规模发生变化的实验快照,与 (D) 中的图形相对应。图 8:任意旋转方向的多物体操纵演示:(A)三个微型机器人小组(彩色)与三根杆的快照。(B) 三组微型机器人在 250 秒后的轨迹快照。虚线表示(A)中棒的初始方向,箭头表示旋转方向。微机器人群可以同时操纵三根棒,并有独立的旋转方向。多物体操纵视频见 SM7。声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!