2023
年是具身智能进入公众视野的的第一年。短短不足两年时间,行业涌现出一大批企业,技术路径亦有不同。具身智能行业是一个技术密度极高的领域,发展日新月异。我们渴望具身智能给我们带来天选“赛博牛马”,替代、协助人类高效完成更多精细化工作,能在各种场景自适应、通用化。然而灵巧性、泛化性和高成功率的‘不可达三角’成为当前最大难题。
与
LLM
类似,当前具身创业公司核心选择的路径分为两种:模仿学习和强化学习。
模仿学习比较直接、简单,能够快速地从专家的示范中获得知识和技能。
这种学习方法本质是对示范对象的直接映射,其所学习到的策略和行为通常受限于示范数据。
局限在于以模仿对象的经验值和策略为上限,迁移泛化能力较弱,可能无法有效适应变化的环境或任务需求,还需要大量高质量的示范数据确保学习效果和模型的性能稳定。
强化学习则是通过设计奖励机制,让机器人在与环境的交互中,学习如何在特定任务里获得最大累积奖励,通过试错的方式从经验中学习最佳的行为策略。可以理解为相比模仿学霸,强化学习更倾向于直接成为学霸。
强化学习很适用于复杂的开放环境下的决策问题,允许机器人进行自主探索,有较强的泛化能力,能够适应各种不同的环境和任务。但设计合适的奖励函数是影响强化学习效果的关键因素,尤其是长程任务的奖励函数设置是非常复杂。另外强化学习的所需的样本量很大,用真机训练成本会很高。通过仿真模拟器进行数据采集,数据成本低,可以大规模获取。足式控制借助仿真数据和强化学习在训练效果上取得了突出的表现,我们看到的各类惊艳的足式机器人
demo
,几乎都是在仿真环境中训练出来。整体而言,
RL locomotion
(运动控制)已经有相对成熟的解决方案,但
RL manipulation
(灵巧操作)仍处于早期阶段。
与语言大模型类似,具身智能中同样有具身大模型的概念,相应的同样会面临通用泛化性、准确率等问题,也会面临
pretrain
、
post
train
的挑战与机会。随着越来越多的具身智能科技公司成立,关于技术路线、数据来源之争在持续演进
。
清华北大是国内具身智能创新的先锋,本文将以其中三家具身智能公司为例,
来
着重讨论具身智能的技术路线和数据来源问题。
2023
年初成立的银河通用背后是前如布科技联创尹方鸣和姚腾洲,科学家是北大助理教授王鹤。银河通用是低成本仿真路线的拥护者,经过
2
年努力于近期重磅发布了
GraspVLA
,思路与
RoboCasa
、
RoboGen
等类似,在海量合成的仿真环境中合成机器人数据。但
GraspVLA
只关注抓取任务,将预训练的
AnyGrasp
模型部署到仿真中采集大量数据来训练一个
VLA
。在仿真中可以加入很多随机化、以提升
VLA
的泛化性。
AnyGrasp
、
GraspVLA
、
OpenVLA demo
视频对比:
2
灵初