点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:宇树科技
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
文章引用自:https://www.1x.tech/discover/1x-world-model
在机器学习中,世界模型是一种计算机程序,它可以想象世界如何响应代理的行为而演变。基于视频生成和自动驾驶汽车世界模型方面的进步,我们训练了一个世界模型,作为我们机器人的虚拟模拟器。
更多具身智能内容,欢迎加入国内首个具身智能全栈学习社区:
具身智能之心知识星球
,
这里包含所有你想要的。
从相同的起始图像序列,我们的世界模型可以从不同的机器人动作提议中想象出多种未来。
它还可以预测非平凡物体的相互作用,如刚体、掉落物体的影响、部分可观测性、可变形物体(窗帘、衣物)和铰接物体(门、抽屉、窗帘、椅子)。
在这篇文章中,我们将分享为什么机器人世界模型很重要,我们当前模型的能力和局限性,以及一个新的数据集和公开竞赛,以鼓励在这个方向进行更多的研究。
机器人问题
世界模型解决了构建通用机器人时一个非常实际但经常被忽视的挑战:评估。如果您训练机器人执行 1000 项独特的任务,那么很难知道与之前的模型相比,新模型是否使机器人在所有 1000 项任务上都表现更好。即使是相同的模型权重,由于环境背景或环境照明的细微变化,几天之内性能也会迅速下降。
我们训练的 T 恤折叠模型示例在 50 天内性能会下降。
如果环境随着时间的推移不断变化,那么在该环境中进行的旧实验将不再可重复,因为旧环境不再存在!如果您在不断变化的环境(如家庭或办公室)中评估多任务系统,这个问题会变得更糟。这使得在现实世界中进行细致的机器人科学研究变得异常困难。
通过仔细测量能力,人们可以预测当数据、计算和模型规模增加时,能力将如何扩展——这些“扩展定律”为对 ChatGPT 等通用 AI 系统的巨额投资提供了保障。如果机器人技术要迎来“ChatGPT 时刻”,我们必须首先建立它的“扩展定律”。
其他评估方法
基于物理的模拟(Bullet、Mujoco、Isaac Sim、Drake)是快速测试机器人策略的合理方法。它们可重置且可重现,使研究人员能够仔细比较不同的控制算法。然而,这些模拟器大多是为刚体动力学设计的,需要大量的手动资产创作。如何模拟机器人手打开咖啡滤纸的纸盒、用刀切水果、拧开冷冻果酱罐或与人类等其他智能代理互动?众所周知,家庭环境中遇到的日常物体和动物很难模拟,因此机器人中使用的模拟环境往往在视觉上很单调,缺乏现实世界用例的多样性。对现实或模拟中有限数量任务的小规模评估无法预测现实世界中的大规模评估。
世界模型
我们采用一种全新的方法来评估通用机器人:直接从原始传感器数据中学习模拟器,并用它来评估我们在数百万种场景中的策略。通过直接从真实数据中学习模拟器,您可以吸收现实世界的全部复杂性,而无需手动创建资产。
在过去的一年里,我们收集了数千小时的 EVE 人形机器人数据,这些数据包括在家中和办公室中执行各种移动操作任务以及与人互动。我们将视频和动作数据结合起来,训练出一个世界模型,该模型可以根据观察和动作预测未来的视频。
动作可控性
我们的世界模型能够根据不同的动作命令生成不同的结果。下面我们展示了在四个不同的轨迹上对世界模型进行条件化的各种生成,每个轨迹都从相同的初始帧开始。与之前一样,所示示例未包含在训练过程中。
左门轨迹
右门轨迹
弹奏空气吉他
世界模型的主要价值在于模拟物体的相互作用。在接下来的几代中,我们为模型提供了相同的初始帧和三组不同的抓取箱子的动作。在每种情况下,抓取的箱子都会根据夹持器的运动被抬起和移动,而其他箱子则保持原样。
即使没有提供动作,世界模型也会生成合理的视频,例如学习驾驶时应避开人和障碍物:
长期任务
我们还可以生成长视场视频。下面的示例模拟了完整的 T 恤折叠演示。T 恤和可变形物体在刚体模拟器中往往难以实现。
当前故障模式
对象一致性
我们的模型可能无法在交互过程中保持物体的形状和颜色,有时物体可能会完全消失。此外,当物体被遮挡或以不利的角度显示时,它们的外观可能会在整个生成过程中变形。
物理定律
左侧的生成表明我们的模型对物理属性有了初步理解,这一点可以从夹子松开勺子时勺子落到桌子上看出。然而,也有很多情况下生成未能遵循物理定律,例如右侧的盘子悬在空中。
自我认知
我们把 EVE 放在镜子前,看看后代是否会出现镜像行为,但我们没有看到成功的识别或“自我理解”