专栏名称: AI寒武纪
Attention Is All You Need
目录
相关文章推荐
医学影像沙龙  ·  放射科护理临床实践指南与质控规范 ·  2 天前  
火石创造  ·  人工智能产业分布及企业集聚度Top20城市 ·  3 天前  
蒲公英Ouryao  ·  【集采放榜】拼价格,看谁报了最低价 ·  4 天前  
医学影像沙龙  ·  必看!CT影像读片技巧及注意事项... ·  5 天前  
医学影像沙龙  ·  淋巴结影像解剖与诊断... ·  6 天前  
51好读  ›  专栏  ›  AI寒武纪

英伟达GR00T重大突破:利用Apple Vision Pro 解决机器人领域最痛苦数据扩展难点

AI寒武纪  · 公众号  ·  · 2024-07-31 06:11

正文



GR00T项目重大突破!英伟达实现了一种系统化扩展机器人数据的方法,解决了机器人领域最痛苦的难点
GR00T 项目是英伟达一项为仿人机器人开发通用基础模型的计划,该模型将多模式指令和过去的互动作为输入,并输出机器人的动作。 这种先进的模型是模块化的,既有高级推理和规划系统,也有低级快速、准确和反应性运动系统
英伟达 Embodied AI(GEAR 实验室)负责人Jim Fan解释了GROOT这一突破
其实想法很简单:人类在真实机器人上收集演示数据,然后在仿真中将这些数据扩大1000倍或更多。具体来讲:
We use Apple Vision Pro  to give the human operator first person control of the humanoid. Vision Pro parses human hand pose and retargets the motion to the robot hand, all in real time. From the human’s point of view, they are immersed in another body like the Avatar. Teleoperation is slow and time-consuming, but we can afford to collect a small amount of data.
研究人员使用Apple Vision Pro(你没看错!!)为人类操作员提供第一人称视角控制的人形机器人。Vision Pro实时解析人类手部姿势,并将动作重新定向到机器人手部。从人类的角度来看,他们仿佛沉浸在另一个身体中。虽然远程操作较为缓慢且耗时,但我们可以收集少量数据

We use RoboCasa, a generative simulation framework, to multiply the demonstration data by varying the visual appearance and layout of the environment. In Jensen’s keynote video below, the humanoid is now placing the cup in hundreds of kitchens with a huge diversity of textures, furniture, and object placement. We only have 1 physical kitchen at the GEAR Lab in NVIDIA HQ, but we can conjure up infinite ones in simulation.
使用RoboCasa,这是英伟达开发的一种生成式仿真框架,通过改变环境的视觉外观和布局来倍增演示数据。例如现在让人形机器人在成百上千个厨房中放置杯子,这些厨房拥有各种纹理、家具和物体布置,但是在NVIDIA总部的GEAR实验室中,只有一个物理厨房,通过RoboCasa可以在仿真中创建无数的虚拟厨房

Finally, we apply MimicGen, a technique to multiply the above data even more by varying the *motion* of the robot. MimicGen generates vast number of new action trajectories based on the original human data, and filters out failed ones (e.g. those that drop the cup) to form a much larger dataset.
最后,应用MimicGen,这是英伟达开发的一种通过改变机器人动作来进一步倍增上述数据的技术。MimicGen基于原始人类数据生成大量新的动作轨迹,并过滤掉失败的动作(例如掉落杯子),从而形成一个更大的数据集

总结一下

给定1个使用Apple Vision Pro的人类轨迹
RoboCasa生成N个(变化视觉效果) 
MimicGen进一步扩展到NxM(变化动作)

这就是通过GPU加速仿真将昂贵的人类数据转化的方式。之前Jim Fan 提到过,远程操作从根本上来说是不可扩展的,因为在物理世界中,我们始终受限于每个机器人每天24小时的时间。英伟达新GR00T合成数据管道打破了这一限制,在虚拟世界中实现了这一点
这种方法巧妙地解决了机器人学习中的一个根本性挑战:
真实世界数据采集的高成本和低效率。通过GPU加速的仿真技术,英伟达成功地将稀缺且昂贵的人类示范数据转化为海量的训练样本


那么机器人领域的"扩展法则"真的能够从此开启吗?


扩展法则最初源于大语言模型(LLM)领域,描述了模型性能与训练数据量、模型参数量之间的关系。OpenAI在2020年发表的论文《Scaling Laws for Neural Language Models》首次系统地阐述了这一概念。这一法则表明,在一定范围内,模型性能会随着数据量和模型规模的增加而呈对数线性增长
将扩展法则应用到机器人领域面临着独特的挑战
  • 数据多样性:机器人需要处理的是多模态、高维度的实体世界数据,而非纯文本

  • 实时性要求:机器人系统需要实时响应,无法像LLM那样进行离线批处理

  • 安全性考虑:机器人的错误可能直接导致物理世界的安全问题


不过,Scaling Law一但在机器人领域开始得到实际应用,我们将会看到:
  • 跨模态学习:结合视觉、触觉、运动等多种模态,可能带来更强大的泛化能力

  • 物理世界的结构化知识:真实世界的物理规律可能有助于机器人更快地学习和适应。


英伟达的GR00T项目展示了如何在机器人领域应用扩展法则的创新方法:
  • 数据扩展:通过RoboCasa和MimicGen,实现了从少量真实数据到海量模拟数据的转化。这种方法可能导致类似于"预训练-微调"范式在机器人学习中的兴起

  • 任务复杂度扩展:随着数据规模的增长,可以逐步增加任务的复杂度,从简单的物体抓取到复杂的多步骤操作


  • 环境多样性扩展:通过生成diverse的虚拟环境,提高模型的泛化能力


在机器人领域,扩展可能不仅限于数据量,还包括:
  • 传感器精度和种类:更高分辨率的摄像头、更精确的触觉传感器等

  • 执行器的自由度:增加机器人的关节数量和灵活性

  • 计算能力:更强大的板载处理器和更低的延迟

  • 仿真环境的真实度:提高物理引擎的准确性和渲染质量


扩展(Scaling Law)对于大语言模型(LLM)来说大家已经很熟悉了,现在轮到我们在机器人领域了!评论区说出你的看法

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~



👇👇