51好读  ›  专栏  ›  人工智能学家

自我模拟和预测:机器实现自指又迈进了一步

人工智能学家  · 公众号  · AI  · 2025-03-23 17:29

正文

请到「今天看啥」查看全文


图片


摘要


视觉的出现催化了一项关键的进化进步,使生物不仅能够感知环境,还能智能地与环境互动。这一转变在机器人系统的进化中得到了呼应,机器人通过利用视觉来模拟和预测自身动态,标志着向自主性和自我意识迈出了一大步。人类利用视觉记录经验并在内部模拟潜在行动。例如,我们可以想象站起来并举起双臂,身体会在形成一个“T”形,而不需要采取实际行动。同样,模拟使机器人能够在无需执行的情况下规划和预测潜在行动的结果。在此,我们引入了一种自监督学习框架,使机器人仅通过简短的原始视频数据就能建模和预测其形态、运动学和运动控制,从而无需大量的现实世界数据收集和运动学先验知识。通过观察自身的运动,类似于人类观察镜子中的反射,机器人学会了一种自我模拟的能力,并能够为各种任务预测其空间运动。我们的研究结果表明,这种自我学习的模拟不仅能够实现精确的运动规划,还能使机器人检测异常并从损伤中恢复。


研究领域: 自监督学习,自我建模,神经辐射场(NeRF)、运动规划,异常检测,形态预测
来源:集智俱乐部
彭晨:编译


图片
论文题目:Teaching robots to build simulations of themselves
发表时间:2025年2月25日
论文地址:
https://www.nature.com/articles/s42256-025-01006-w
期刊名称:Nature Machine Intelligence




机器人的“镜中自我”




机器人能否像人类一样通过“照镜子”认识自己?

视觉的进化让生物不仅能感知环境,还能通过想象预测行动的结果。当我们照镜子时,大脑会建立自身运动与视觉反馈之间的关联,最终可以闭眼模拟举手投足的姿态,而机器人能否像人一样,仅凭视觉观察构建对自身形态和运动能力的认知?

图片
图 1. 正在探索“镜中自我”的机器人

近期,Nature Machine Intelligence 杂志上发表了一项研究:机器人无需详尽的CAD模型或复杂的外部传感器,仅凭单个摄像头观察自身运动,便能自主建立一个准确的 自身模型(self-model) 。机器人通过视觉反馈,逐渐掌握自己身体结构与运动的关系,仿佛人类通过镜子认识自己的过程一样。这种新颖的能力被研究人员称作“ 运动学自我意识(Kinematic Self-Awareness) ”,其目标是赋予机器人理解自身、适应环境变化甚至在受损时快速恢复的能力,而无需频繁的人工干预。





机器人如何建立起“自我形象”?




传统机器人依赖工程师预先设计的CAD模型和运动学方程,而在该研究中,团队提出了一种自由形态运动学自模型( Free-Form Kinematic Self-Model, FFKSM) ,这是一种基于查询 (query-based) 的神经网络架构,它回答的问题是:给定空间坐标点 X=(x,y,z) 和关节角度 A = (A0, A1, A2, A3),输出该点是否被机器人占据和是否在摄像头视野中。

FFKSM 包含三个核心部分: 坐标编码器(Coordinates Encoder)、运动学编码器(Kinematic Encoder)和预测模块(Predictive Module)。

图片

图2. 自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM)模型架构概览


想象一下机器人的"大脑"分为三个协同工作的区域:

  1. 坐标编码器 C(·) :
用于处理 空间位置 信息,输入当前查询点(query point)的位置坐标 X 和机器人的基础姿态,即底座的朝向 A0 和主臂位置 A1。先通过变换矩阵 T 将查询点从世界坐标系 X 转换到虚拟坐标系 X'=T(X, A0, A1) 中。这相当于将“机器人底座移动”转换为“摄像头相对机器人底座的移动”,使模型能专注于手臂形态学习。坐标编码器输出该坐标的基础特征。

  1. 运动学编码器 K(·) :
专注于手臂的弯曲方式,相当于人类感知自己手臂和手腕如何弯曲,它处理剩余关节的角度信息。输入关节角 A2, A3, 运动学编码器 输出运动学特征,表征机器人此刻关节弯曲状态。

  1. 预测模块 P(·)  :
综合前两个区域的信息,判断该空间点的密度 σ :是否被机器人身体占据;以及可见性 α :摄像头能否看到这个点。通过大量的空间点预测,可以形成完整的机器人自我形象。

完整模型可表示为:

图片




模型训练




当婴儿首次面对镜子抬起手臂时,会逐步领悟镜子里动作与自身肢体的对应关系。类似地,机器人通过建立自身位置、关节状态与相机图像之间的关系,理解自己的身体结构、预测运动形态。这种方法的巧妙之处在于,无需人为设定机器人每个身体部位的精确模型与参数,而是让它通过视觉反馈进行自监督学习,建立起一个对自身“身体”的理解。


训练数据:机器人的"咿呀学语"


在学习开始前,需要准备一些机器人“自我”的真实数据。就像人类婴儿在大量漫无目的地手脚挥动过程中,逐渐学会了如何控制自己的身体;在这个阶段, 机器人也需要随机进行关节移动,摄像机会拍摄记录机器人每个姿态下的图像, 作为真实值(groud truth)用于后续训练。通过这种方式,收集了机器人在12,000种不同姿势下的数据,其中80%用于模型训练,剩余20%用于模型效果验证。


为了帮助机器人更好地学习,研究团队将摄像头记录的图像进行预处理,将彩色图像处理成 黑白二值 图像,其中黑色为背景,白色部分是机器人本体。这种处理相当于仅给机器人提供自身关键轮廓信息,免受其他无关信息的干扰。


模型优化:“想象”与现实对齐


模型训练时,机器人会在“大脑”中(即通过FFKSM模型)尝试根据当前的关节角度,预测自身的形态,就像闭上眼睛想象自己伸手的位置一样。具体而言, 针对图像每一个像素点,机器人会从摄像头发射一条射线,并在每条射线上均匀选取多个点,然后逐一查询这些点的密度和可见性。 最后,机器人将射线上所有采样点的预测值加和起来,即为对该像素的预测值。通过这种射线扫描的方式,逐步预测出所有像素点的情况,也就是“完整形象”。


为了让机器人的预测更加准确,也就是更接近真实图像的情况,研究人员使用均 方误差(MSE) 作为损失函数,衡量机器人预测的图像与实际真实图像之间的差异。结合 反向传播 算法,调整自身神经网络内部的参数,直至预测误差最小。整个过程就好比,小孩总是对照镜子感到好奇,因为从镜子中见到没看见过的完整自我,直到有一天发现镜子中看到的与自己预期完全一致,也就不再感兴趣了(学习过程也就完成了)。





实验发现




FFKSM模型训练完成后,机器人初步具备了三项关键的“自我意识”:分别是3D形态预测能力,运动规划能力,和检测异常并自我修复的能力。

图片

图3. 模型训练后机器人表现的三项关键能力

形态预测能力


机器人能够在任意关节配置下,准确预测自己在空间中的形态。当询问机器人:“如果你的关节角度设为 [30°, 45°, -20°, 15°],你身体的哪些位置会占据空间?”机器人便能清晰地想象并展示出自己的身体在空间中的分布位置。
这种能力不仅适用于训练用的机器人,还能泛化到不同硬件设计的机器人上,甚至能针对特定部件进行单独预测,例如图4中的蓝色执行器。机器人在大脑里形成了一个“数字版的自己”,能够随时“想象”自己的动作后果。

图片

图4:3D形态预测。绿色点云表示预测结果,黑色轮廓显示实际机器人形态。

运动规划能力


过去,机器人实现动作控制通常需要复杂的运动学公式。而自由形态运动学自模型(FFKSM)使机器人能像人类凭直觉拿取物体一样,无需显式的运动学方程即可行动:在轨迹追踪任务上,能够控制手臂精确地沿着给定的3D轨迹运动,如图5A所示的螺旋路线。在避障规划任务上,机器人在有障碍的环境中,为自我规划安全的路径,避免碰撞障碍物。这是通过模型预测自身和末端执行器的位置,判断各处潜在的碰撞风险,并寻找安全路径实现的。

图片

图 5. 运动规划应用

“自愈”能力


复杂的作业环境中有较大的损伤风险,如图6A发生连杆弯曲,因此及时的损伤检测能力非常关键。该模型训练的机器人可以根据当前姿势,预测出自己的应有的正常形态,再与实际看到的自己进行比较。类似人类觉察自己手臂无法抬起,如果预测与真实图像差距超出一定阈值,机器人便知道自己“受伤”了,随即启动新的自我探索过程,用新数据调整自身模型,以适应新的身体形态,进而恢复正常功能。图6B 中展示了使用10、100、1000和10000个数据点时的误差变化,证明随着数据增加,模型能够逐渐适应机器人的新形态。
试想一个在遥远或危险环境中工作的机器人,例如核电站,即使受损也能自我调整以完成任务,而无需人类干预。这种能力对于未来太空探索、深海作业或灾难救援等领域有着深刻意义。

图片

图6. 异常检测与损伤恢复




通向“具身智能”的关键一步




这项研究突破了机器人自我建模对硬件和先验知识的依赖,其意义堪比生物进化史上的“镜像认知”跃迁。研究团队计划,未来将把框架扩展至柔性机器人,通过融合扭矩传感器实现软体形态预测。当机器人能像人类一样“感知身体、预判动作”,真正的自主适应性或许不再遥远。正如文章所说:“这不仅是算法的进步,更是机器认知边界的一次拓展——从执行指令的工具,迈向拥有‘身体自我意识’的智能体。”

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库 是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究 资料 欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。



截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

  1. 《核聚变,确保 21 世纪美国的主导地位的关键技术》

  2. 《世界知识产权组织:2025WIPO 技术趋势报告:交通运输的未来(145 页)》

  3. 《世界知识产权组织(WIPO):2024 年世界知识产权指标报告(194 页)》

  4. 《联合国环境规划署:2024 年保护地球报告(81 页)》

  5. 《联合国工发组织:2024 清洁技术创新能力建设框架研究报告(51 页)》

  6. 《凯捷:Applying TechnoVision 2025:未来科技趋势及应用愿景(17 页)》

  7. 《谷歌:2025 年 AI Agent 白皮书:AI 智能体时代来临(42 页)》

  8. 《富而德律师事务所:2024 年国际仲裁趋势年度回顾报告(41 页)》

  9. 《邓白氏:2024 年全球企业破产报告(27 页)》

  10. 《LLM 时代小模型的应用潜力与挑战 》(50 页)

  11. 《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版 191 页)

  12. 《英伟达:2025NVIDIA 自动驾驶安全报告(26 页)》

  13. 《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告(23 页)》

  14. 《高德地图:2024 年中国主要城市交通分析报告(29 页)》

  15. 《德勤 & CAS:2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势(36 页)》

  16. 《ABI Research:2025 生成式人工智能在语义和实时通信中的应用研究报告(20 页)》

  17. 《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告(45 页)》

  18. 《生成式基础模型的可信度 —— 指南、评估与展望》(231 页)

  19. 《量子信息科学与技术对国家安全的影响》(118 页)

  20. 《中国科学技术信息研究所:2024 科技期刊世界影响力指数(WJCI)报告(68 页)》

  21. 《思略特(Strategy&):2025 汽车行业的人工智能(AI)机遇研究报告(12 页)》

  22. 《赛默飞:2024 年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18 页)》

  23. 《清华大学:2025 年 DeepSeek 与 AI 幻觉报告(38 页)》

  24. 《美国企业研究所(AEI):2025 创新未来电力系统研究报告:从愿景迈向行动(71 页)》

  25. 《超材料的智能设计研究进展》

  26. 《Ember:2030 年全球可再生能源装机容量目标研究报告(29 页)》

  27. 《量子信息科学与技术对国家安全的影响》

  28. 《英国人工智能安全研究所:2025 年国际人工智能安全报告 - 执行摘要(22 页)》

  29. 《世界海事大学:2024 海事数字化与脱碳研究报告:可持续未来(250 页)》

  30. 《艾睿铂(AlixPartners):2024 回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18 页)》

  31. 《Wavestone :2025 数据与 AI 雷达:掌握数据与人工智能转型的 10 大挑战研究报告(30 页)》

  32. 《CSIS:2024 中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120 页)》

  33. 《MSC:2025 全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32 页)》

  34. 《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告(22 页)》

  35. 《中国核电 - 公司深度报告:世界核电看中国 - 250218(22 页)》

  36. 《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望 - 250216(28 页)》

  37. 《皮尤研究中心:2024 美国社交媒体使用情况研究报告(英文版)(30 页)》

  38. 《科睿唯安:2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者(47 页)》

  39. 《经合组织(OECD):2025 年全球脆弱性报告(218 页)》

  40. 《计算机行业年度策略:AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218(38 页)》

  41. 《国金证券研究所:从理想走向现实,全球人型机器人研究报告》

  42. 《深度解读 DeepSeek 原理与效应(附 PPT 下载)》

  43. 《兰德公司(RAND):2025 借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62 页)》

  44. 《凯捷(Capgemini):2025 行业创新洞察:电气化飞机推进系统研究报告(27 页)》

  45. 《国际能源署(IEA):2025 全球电力市场报告:至 2027 年的分析与预测(200 页)》

  46. 《Zenith:2025 年国际消费电子展(CES)趋势报告:AI 对消费科技、消费行为及传媒营销的变革性影响(17 页)》

  47. 《RBC 财富管理:全球透视 2025 年展望报告(33 页)》

  48. 《美国国防部和国家安全领域的十大新兴技术》(96 页)

  49. 《代理型人工智能全面指南》(45 页 ppt)

  50. 《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》(英文版 47 页)

  51. 《仲量联行(JLL):2025 美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26 页)》

  52. 《未来的太空领域:影响美国战略优势的领域》

  53. 《Luminate:2024 年年终美国影视行业报告:数据及趋势洞察(40 页)》

  54. 《Anthropic:2025 年 AI 经济影响报告:AI 如何融入现代经济的各类实际任务(38 页)》

  55. 【ICLR2025】《LLMS 能否识别您的偏好?评估 LLMS 中的个性化偏好遵循能力》

  56. 《改进单智能体和多智能体深度强化学习方法》(219 页)

  57. 《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》(英文版 29 页)

  58. 《世界经济论坛 & 麦肯锡:2025 以人才为核心:制造业持续变革的当务之急研究报告(40 页)》

  59. 《超越 ChatGPT 的 AI 智能体》(82 页 ppt)

  60. 《Harris Poll:2024 年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14 页)》

  61. 【新书】《人工智能智能体的应用》(527 页)

  62. 《哥伦比亚大学:超越 Chatgpt 的 AI agent 综述》

  63. 《欧盟标准组织 - 体验式网络智能(ENI)- 基于人工智能代理的下一代网络切片研究》

  64. 《中国科学院:2024 开放地球引擎(OGE)研究进展与应用报告(55 页)》

  65. 《中国工程院:2024 农业机器人现状与展望报告(70 页)》

  66. 《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》

  67. 《罗兰贝格:2050 年全球趋势纲要报告之趋势五:技术与创新(2025 年版)(72 页)》

  68. 《理特咨询(ADL):2025 解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20 页)》

  69. 《埃森哲:技术展望 2025—AI 自主宣言:可能无限信任惟先 - 摘要(12 页)》

  70. 《怡安(AON):2025 年气候和自然灾难洞察报告(109 页)》

  71. 《美国安全与新兴技术中心:2025 AI 翻车事故(AI incident):强制性报告制度的关键要素研究报告(32 页)》

  72. 《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告 》(英文版 64 页)

  73. 《欧洲创新委员会(EIC):2024 年科技报告(65 页)》

  74. 《大模型基础 完整版》

  75. 《国际人工智能安全报告》(300 页)

  76. 《怡安(AON):2025 年全球医疗趋势报告(19 页)》

  77. 《前瞻:2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式(57 页)》

  78. 《联合国(United Nations):2024 技术与统计报告:从业者投资法指南(67 页)》

  79. 《经济学人智库(EIU):2025 全球展望报告:特朗普再次当选美国总统的全球影响(16 页)》

  80. 《大规模视觉 - 语言模型的基准、评估、应用与挑战》

  81. 《大规模安全:大模型安全的全面综述》

  82. 《Emplifi:2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察(37 页)》

  83. 《DeepMind:2025 生成式魂灵:预测人工智能来世的益处和风险研究报告(23 页)》

  84. 【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》

  85. 《世界银行:2025 极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76 页)》

  86. 《北京理工大学:2025 年中国能源经济指数研究及展望报告》

  87. 《Space Capital:2024 年第四季度太空投资报告(22 页)》

  88. 《NetDocuments:2025 年法律科技趋势报告(32 页)》

  89. 《CB Insights:2024 年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130 页)》

  90. 《Artlist:2025 年全球内容与创意趋势报告(59 页)》

  91. 《IBM 商业价值研究院:2024 投资人工智能伦理和治理必要性研究报告:AI 伦理前线五位高管的真实故事(24 页)》

  92. 《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》

  93. 《清华大学:2025 年 DeepSeek 从入门到精通(104 页)》

  94. 《麦肯锡:2025 工作场所中的超级代理 (Superagency):赋能人类解锁人工智能的全部潜力(47 页)》

  95. 《凯捷(Capgemini):科技愿景 2025:关键新兴科技趋势探索(54 页)》

  96. 《硅谷银行(SVB):2025 年上半年全球创新经济展望报告(39 页)》

  97. 《BCG:2025 工业运营前沿技术:AI 智能体 (AI Agents) 的崛起白皮书(26 页)》

  98. 《DrakeStar:2024 年全球游戏与电竞行业报告(26 页)》

  99. 《理特咨询(ADL):2025 人工智能驱动的研究、开发与创新突破的新时代研究报告(80 页)》

  100. 《互联网安全中心(CIS):2024 年网络安全冬季报告:回顾与展望(30 页)》

  101. 《方舟投资(ARK Invest):Big Ideas 2025 - 年度投研报告(148 页)》

  102. 《DeepSeek:2024 年 DeepSeek-V2 模型技术报告:经济、高效的混合专家语言模型(52 页)》

  103. 《CB Insights:2024 年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273 页)》

  104. 《全国智标委:2025 城市生命线数字化标准体系研究报告(105 页)》

  105. 《经合组织(OECD):2024 年全球政府创新趋势报告:促进以人为本的公共服务(46 页)》

  106. 《DeepSeek_R1 技术报告》

  107. 《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么?》

  108. 《李飞飞最新 S1 模型的论文:s1 Simple test-time scaling》

  109. 《世界经济论坛 -《全球经济未来:2030 年的生产力》报告》

  110. 《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》

  111. 《百页大语言模型新书》(209 页 pdf)

  112. 《量子技术和网络安全:技术、治理和政策挑战》(107 页)

  113. 《大语言模型中的对齐伪造》(137 页)

  114. 《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军 232 页)

  115. 《美国防部 CDAO:人工智能模型的测试与评估》(66 页 slides)

  116. 《自动驾驶的世界模型综述》

  117. 《Questel2024 深度学习领域专利全景报告》(英文版 34 页)

  118. 《深度解析 Palantir》(20250122_204934.pdf)


上下滑动查看更多








请到「今天看啥」查看全文