专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  【[155星]Claude Debugs ... ·  昨天  
爱可可-爱生活  ·  用强化学习控制推理模型的思考时长 ... ·  2 天前  
黄建同学  ·  Manus工作原理↓以及护城河分析-2025 ... ·  2 天前  
爱可可-爱生活  ·  本文创新性地指出,在LLM ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

让机器人像人类一样终身学习,突破性框架LEGION登Nat. Mach. Intell.

人工智能学家  · 公众号  · AI  · 2025-02-19 16:49

正文

图片


摘要


人类能够在其一生中不断积累知识,并发展出越来越复杂的行为和技能,这种能力被称为“终身学习”。尽管这种终身学习能力被认为是构成一般智能的重要机制,但人工智能领域的最新进展主要集中在狭窄、专门化的领域,并且通常缺乏这种终身学习能力。在此,我们介绍了一种机器人终身强化学习框架,通过开发受贝叶斯非参数领域启发的知识空间来弥补这一不足。此外,我们通过将语言嵌入整合到框架中,增强了智能体对任务的语义理解。我们提出的具身智能体能够持续从连续的一次性喂食任务流中积累知识。此外,我们的智能体能够通过结合和重新应用从原始任务流中获得的知识来解决具有挑战性的现实世界中的长期任务。所提出的框架推进了我们对机器人终身学习过程的理解,并可能激发更广泛适用的智能的发展。


研究领域: 终身强化学习,贝叶斯非参数模型,知识空间,语言嵌入,灾难性遗忘
图片
来源: 集智编辑部

编译:彭晨

图片
论文题目:Preserving and combining knowledge in robotic lifelong reinforcement learning
发表时间:2025年2月5日
论文地址:https://www.nature.com/articles/s42256-025-00983-2
期刊名称: Nature Machine intelligence

人类能够通过终身学习(Lifelong Learning)持续积累技能,而当前AI系统虽在单一任务中表现卓越,却难以像人类一样“学以致用”。传统多任务学习依赖固定数据集,面对未知任务时易出现“灾难性遗忘”。近日,Nature Machine Intelligence的一项研究发布全新框架LEGION,通过贝叶斯非参数知识空间与语言嵌入技术,让机器人实现终身强化学习,甚至能像人类一样重组旧技能解决复杂新任务。

图片

图 1. 机器人终身强化学习(LRL)过程的概念图示。a,LRL 过程的总体概览图示。与传统多任务方法不同,在传统方法中,智能体可以同时访问所有任务,而 LRL 智能体能够依次掌握任务。此外,智能体在整个过程中应不断积累知识。这一概念模仿了人类的学习过程。b,我们在终身学习概念下的框架。我们指示部署的具身智能体使用语言指令执行长时任务。智能体通过组合和重新应用所获得的知识来完成这些任务。





核心方法:知识空间+语言语义双引擎驱动




1. 贝叶斯非参数知识空间:动态扩容的“记忆图书馆”


研究团队受 狄利克雷过程混合模型(DPMM)启发,设计了一个可无限扩展的知识空间。 该空间通过在线变分推断(MemoVB)动态创建或合并知识簇,无需预设任务数量。其运作逻辑在于当机器人学习新任务时,任务编码器将状态观测与语言指令嵌入结合,生成潜在表征,然后DPMM根据相似度将其归类到现有知识簇,或创建新簇存储。知识空间的优势在于能够突破传统神经网络固定架构限制,避免因任务流涌入导致旧知识被覆盖。


2. 语言嵌入:让机器人“听懂”任务语义


研究引入预训练大语言模型(LLM,如RoBERTa),将动作任务指令编码为语义向量,并与环境观测融合。例如:大语言模型中的语言嵌入帮助区分“推茶杯”和“开窗户”的动作差异,避免轨迹混淆;在一些长时程任务(如“清理桌面”)中,语言指令指导机器人按需调用“推”“抓握”“按压”等底层技能。


图片

图 2. 知识空间的t-SNE截图。两个任务(a)、四个任务(b)、六个任务(c)、八个任务(d)和全部十个任务(e)训练后知识空间的t-SNE投影。(f)第一个训练循环后的t-SNE投影(圆)和第二个循环后的t-SNE投影(交叉)。值得注意的是,第二个训练循环的推理结果被合并到相应的知识组中,这些知识组在第一个循环中被保留。




实验结果:真实机器人“学得快、记得牢”




1. 10项任务流测试:零遗忘+正向迁移

机器人在10项连续任务(从“抓取”到“关窗”)中,平均成功率从0.38逐步提升至0.84,且旧任务遗忘率趋近于零。前向迁移(Forward Transfer)指标得分0.10,体现在早期任务(如“推”)的知识显著加速后期任务(如“关抽屉”)学习;另外, 灾难性遗忘 被完全抑制,部分任务因技能复用表现反升,如“开门”成功率从0.4提升至0.8。

2. 长时程任务:无需预设步骤的灵活组合

在“清理桌面”任务中,机器人自主调用7项子技能,成功率高达92%。更惊艳的是,任务顺序可任意调整——例如先“按按钮”再“推瓶子”,系统仍能通过知识重组完成任务。

3. 对比实验:完胜传统经验回放方法

Reservoir、A-GEM 等基于经验回放的方法相比,LEGION在持续学习中的平均成功率高出40%。即使任务数据比例从50%衰减至10%,知识空间仍能稳定保留核心特征。

图片

图 3. LEGION框架训练和部署流程图。(a)训练。该框架接收语言语义信息和环境观察作为制定策略决策和输出操作模式的输入,它一次只训练一个任务。(b)部署。在现实世界的演示中,主体参数保持冻结,主体接收来自现实世界硬件的输入信号并输出相应的动作信号,“Sim2Real”和“Real2Sim”模块处理数据以调整模拟与现实世界之间的差距。





未来展望:迈向通用人工智能的关键一步




LEGION框架首次在真实机器人中验证了终身强化学习的可行性,其应用潜力包括: 家庭服务机器人 ,持续学习新家电操作,无需反复编程; 工业机器人 ,在动态产线中自适应多工种需求; 人机协作 ,通过自然语言指令实时扩展技能库。团队下一步计划融合扩散模型提升动作平滑性,并探索 零样本推理 能力。这项研究或为通用人工智能(AGI)的发展推开一扇新大门。


从“机械重复”到“终身成长”,LEGION框架让机器人向人类学习模式迈出关键一步。或许不久的将来,每个家庭都能拥有一个“越用越聪明”的机器管家——它不会忘记你教过的每个动作,还能自学新技能给你惊喜。


阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库 是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究 资料 欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。



截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告







请到「今天看啥」查看全文