聊一聊机器人与世界模型的事儿

3D视觉工坊 · 公众号 · · 2024-10-24 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：宇树科技

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

文章引用自：https://www.1x.tech/discover/1x-world-model

在机器学习中，世界模型是一种计算机程序，它可以想象世界如何响应代理的行为而演变。基于视频生成和自动驾驶汽车世界模型方面的进步，我们训练了一个世界模型，作为我们机器人的虚拟模拟器。

更多具身智能内容，欢迎加入国内首个具身智能全栈学习社区： 具身智能之心知识星球 ，这里包含所有你想要的。

从相同的起始图像序列，我们的世界模型可以从不同的机器人动作提议中想象出多种未来。

它还可以预测非平凡物体的相互作用，如刚体、掉落物体的影响、部分可观测性、可变形物体（窗帘、衣物）和铰接物体（门、抽屉、窗帘、椅子）。

在这篇文章中，我们将分享为什么机器人世界模型很重要，我们当前模型的能力和局限性，以及一个新的数据集和公开竞赛，以鼓励在这个方向进行更多的研究。

机器人问题

世界模型解决了构建通用机器人时一个非常实际但经常被忽视的挑战：评估。如果您训练机器人执行 1000 项独特的任务，那么很难知道与之前的模型相比，新模型是否使机器人在所有 1000 项任务上都表现更好。即使是相同的模型权重，由于环境背景或环境照明的细微变化，几天之内性能也会迅速下降。

我们训练的 T 恤折叠模型示例在 50 天内性能会下降。

如果环境随着时间的推移不断变化，那么在该环境中进行的旧实验将不再可重复，因为旧环境不再存在！如果您在不断变化的环境（如家庭或办公室）中评估多任务系统，这个问题会变得更糟。这使得在现实世界中进行细致的机器人科学研究变得异常困难。

通过仔细测量能力，人们可以预测当数据、计算和模型规模增加时，能力将如何扩展——这些“扩展定律”为对 ChatGPT 等通用 AI 系统的巨额投资提供了保障。如果机器人技术要迎来“ChatGPT 时刻”，我们必须首先建立它的“扩展定律”。

其他评估方法

基于物理的模拟（Bullet、Mujoco、Isaac Sim、Drake）是快速测试机器人策略的合理方法。它们可重置且可重现，使研究人员能够仔细比较不同的控制算法。然而，这些模拟器大多是为刚体动力学设计的，需要大量的手动资产创作。如何模拟机器人手打开咖啡滤纸的纸盒、用刀切水果、拧开冷冻果酱罐或与人类等其他智能代理互动？众所周知，家庭环境中遇到的日常物体和动物很难模拟，因此机器人中使用的模拟环境往往在视觉上很单调，缺乏现实世界用例的多样性。对现实或模拟中有限数量任务的小规模评估无法预测现实世界中的大规模评估。