可惜阿西莫夫的三大定律,应该还没有成为机器人必须遵守的铁律……第一定律机器人不得伤害人类,或因不作为而使人类受到伤害。第二定律机器人必须服从人类的命令,除非这些命令与第一定律相冲突。第三定律机器人必须保护自身的安全,除非这种保护与第一、第二定律相冲突。//
@健康渔
:加油!来吧!没底线的人类更可怕
Figure团队激动地介绍了他们的最新成就——机器人能够像人一样行走了!
当然,事情没那么简单,背后是:
- 端到端神经网络,
- 强化学习(RL)训练
- 如何模拟训练
- 如何实现零样本迁移到真实机器人上
Figure 还发布了一篇文章《使用强化学习实现自然人形步态》,来介绍如何做的:
1. Figure 的端到端神经网络,是一个通过强化学习(RL)训练的用于人形机器人行走的系统。利用强化学习的优势,通过在模拟环境中的试错学习,教会了Figure 02型人形机器人像人类一样行走。
2. 训练过程:在一个高保真物理模拟器中训练我们的机器人,仿真数据相当于数年的学习量,却只用了几小时。在模拟器中,成千上万的Figure 02机器人并行模拟,每个都有独特的物理参数。这些机器人面对它们可能遇到的各种场景,通过单一神经网络策略学习操作所有情况。这包括遇到不同的地形,执行器动力学的变化,以及对摔倒、滑倒和被推搡的响应。
3. 人形步态的工程设计:我们的目标是让机器人更像人类那样在世界中移动。通过强化学习获得的策略可能会收敛到不捕捉人类行走风格属性的次优控制策略。我们通过奖励机器人模仿人类行走参考轨迹来将这种偏好注入我们的学习框架,这些轨迹为策略允许生成的行走样式设定了先验。
4. 仿真到真实的转换:为了弥合仿真与真实之间的差距,我们结合使用了模拟中的域随机化和机器人上的kHz级扭矩反馈控制。域随机化通过随机化每个机器人的物理属性来桥接仿真与真实的差距。这帮助策略零镜头转移到物理机器人上,无需任何额外的微调。
结论:我们展示了一个纯粹在模拟中通过端到端强化学习学到的自然行走控制器。这使得Figure机器人群能够快速学习稳健的、本体感知的运动策略,并且能够加速工程迭代周期。这些初步结果令人兴奋,但我们相信这只是我们技术全部潜力的冒头之春。
文章:www.figure.ai/news/reinforcement-learning-walking
#ai创造营# #科技# #人形机器人10年内有望走入家庭#
当然,事情没那么简单,背后是:
- 端到端神经网络,
- 强化学习(RL)训练
- 如何模拟训练
- 如何实现零样本迁移到真实机器人上
Figure 还发布了一篇文章《使用强化学习实现自然人形步态》,来介绍如何做的:
1. Figure 的端到端神经网络,是一个通过强化学习(RL)训练的用于人形机器人行走的系统。利用强化学习的优势,通过在模拟环境中的试错学习,教会了Figure 02型人形机器人像人类一样行走。
2. 训练过程:在一个高保真物理模拟器中训练我们的机器人,仿真数据相当于数年的学习量,却只用了几小时。在模拟器中,成千上万的Figure 02机器人并行模拟,每个都有独特的物理参数。这些机器人面对它们可能遇到的各种场景,通过单一神经网络策略学习操作所有情况。这包括遇到不同的地形,执行器动力学的变化,以及对摔倒、滑倒和被推搡的响应。
3. 人形步态的工程设计:我们的目标是让机器人更像人类那样在世界中移动。通过强化学习获得的策略可能会收敛到不捕捉人类行走风格属性的次优控制策略。我们通过奖励机器人模仿人类行走参考轨迹来将这种偏好注入我们的学习框架,这些轨迹为策略允许生成的行走样式设定了先验。
4. 仿真到真实的转换:为了弥合仿真与真实之间的差距,我们结合使用了模拟中的域随机化和机器人上的kHz级扭矩反馈控制。域随机化通过随机化每个机器人的物理属性来桥接仿真与真实的差距。这帮助策略零镜头转移到物理机器人上,无需任何额外的微调。
结论:我们展示了一个纯粹在模拟中通过端到端强化学习学到的自然行走控制器。这使得Figure机器人群能够快速学习稳健的、本体感知的运动策略,并且能够加速工程迭代周期。这些初步结果令人兴奋,但我们相信这只是我们技术全部潜力的冒头之春。
文章:www.figure.ai/news/reinforcement-learning-walking
#ai创造营# #科技# #人形机器人10年内有望走入家庭#