Jim Fan 大佬关于Genisis(网页链接)的赞赏↓
如果一台AI能控制1000个机器人,在10亿次不同的模拟中完成100万种技能,那么它在现实世界中可能也能“正常工作”,因为现实世界只是可能性空间中的一个点。这就是为什么模拟对于机器人学如此有效的基本原理。#ai创造营##ai#
现实世界的远程操作数据随着人类时间线性增长(<每个机器人每天24小时)。而模拟数据则随着算力指数增长。
未来模拟器的三大趋势:
1. 在大型集群上的大规模并行化
物理方程本质上是矩阵运算,而GPU在矩阵运算方面表现优异🔥。单个GPU可以运行10万份模拟副本。换个角度理解:1小时的计算时间可以给机器人提供10年的训练经验。这也是为什么《黑客帝国》中Neo可以在一瞬间学会武术的原因。
2. 生成式图形流水线
传统的模拟器需要大量人工参与,比如3D素材、纹理、场景布局等。但如今,工作流程中的每一个环节都可以被自动化,比如文本生成图像、文本生成3D模型,甚至使用大型语言模型(LLMs)生成USD(通用场景描述)文件。RoboCasa 是一个已有的案例。
3. 端到端神经网络作为模拟器本身
虽然这仍属于前沿研究,距离取代传统图形流水线还有很长的路,但我们已经看到了一些激动人心的进展,比如基于视频生成模型的成果(如 Sora、Veo2、CogVideoX、Hunyuan 等文本生成视频工具)以及动作驱动的世界模型(如 GameNGen、Oasis、Genie-2 等)。
Genesis 在某些任务上很好地实现了(1),在(2)方面展现了良好的前景,并有可能成为实现(3)的数据生成工具。它的模拟到现实能力在运动控制方面表现出色,但在涉及复杂接触和灵巧操作的任务上还有很长的路要走。这是一个大胆的愿景,致力于为具身AI提供虚拟的摇篮。Genesis 是开源的,并且将简化用户体验作为首要目标。
看到模拟生态系统繁荣发展,是我最大的喜悦。机器人学应该成为全人类共同拥有的登月计划。
ChatGPT 黄建同学的微博视频
如果一台AI能控制1000个机器人,在10亿次不同的模拟中完成100万种技能,那么它在现实世界中可能也能“正常工作”,因为现实世界只是可能性空间中的一个点。这就是为什么模拟对于机器人学如此有效的基本原理。#ai创造营##ai#
现实世界的远程操作数据随着人类时间线性增长(<每个机器人每天24小时)。而模拟数据则随着算力指数增长。
未来模拟器的三大趋势:
1. 在大型集群上的大规模并行化
物理方程本质上是矩阵运算,而GPU在矩阵运算方面表现优异🔥。单个GPU可以运行10万份模拟副本。换个角度理解:1小时的计算时间可以给机器人提供10年的训练经验。这也是为什么《黑客帝国》中Neo可以在一瞬间学会武术的原因。
2. 生成式图形流水线
传统的模拟器需要大量人工参与,比如3D素材、纹理、场景布局等。但如今,工作流程中的每一个环节都可以被自动化,比如文本生成图像、文本生成3D模型,甚至使用大型语言模型(LLMs)生成USD(通用场景描述)文件。RoboCasa 是一个已有的案例。
3. 端到端神经网络作为模拟器本身
虽然这仍属于前沿研究,距离取代传统图形流水线还有很长的路,但我们已经看到了一些激动人心的进展,比如基于视频生成模型的成果(如 Sora、Veo2、CogVideoX、Hunyuan 等文本生成视频工具)以及动作驱动的世界模型(如 GameNGen、Oasis、Genie-2 等)。
Genesis 在某些任务上很好地实现了(1),在(2)方面展现了良好的前景,并有可能成为实现(3)的数据生成工具。它的模拟到现实能力在运动控制方面表现出色,但在涉及复杂接触和灵巧操作的任务上还有很长的路要走。这是一个大胆的愿景,致力于为具身AI提供虚拟的摇篮。Genesis 是开源的,并且将简化用户体验作为首要目标。
看到模拟生态系统繁荣发展,是我最大的喜悦。机器人学应该成为全人类共同拥有的登月计划。
ChatGPT 黄建同学的微博视频