专栏名称: 共识粉碎机
寻找与共识的不同
目录
相关文章推荐
陈忻儿童心理  ·  《从心理解孩子》在线课程2025春季班招生开 ... ·  昨天  
之乎者野记  ·  日子787|越是没人爱的时候,越要好好爱自己 ·  昨天  
51好读  ›  专栏  ›  共识粉碎机

具身智能技术:模仿学习与强化学习的抉择

共识粉碎机  · 公众号  ·  · 2025-01-22 14:57

正文

2023 年是具身智能进入公众视野的的第一年。短短不足两年时间,行业涌现出一大批企业,技术路径亦有不同。具身智能行业是一个技术密度极高的领域,发展日新月异。我们渴望具身智能给我们带来天选“赛博牛马”,替代、协助人类高效完成更多精细化工作,能在各种场景自适应、通用化。然而灵巧性、泛化性和高成功率的‘不可达三角’成为当前最大难题。

LLM 类似,当前具身创业公司核心选择的路径分为两种:模仿学习和强化学习。 模仿学习比较直接、简单,能够快速地从专家的示范中获得知识和技能。 这种学习方法本质是对示范对象的直接映射,其所学习到的策略和行为通常受限于示范数据。 局限在于以模仿对象的经验值和策略为上限,迁移泛化能力较弱,可能无法有效适应变化的环境或任务需求,还需要大量高质量的示范数据确保学习效果和模型的性能稳定。

强化学习则是通过设计奖励机制,让机器人在与环境的交互中,学习如何在特定任务里获得最大累积奖励,通过试错的方式从经验中学习最佳的行为策略。可以理解为相比模仿学霸,强化学习更倾向于直接成为学霸。 强化学习很适用于复杂的开放环境下的决策问题,允许机器人进行自主探索,有较强的泛化能力,能够适应各种不同的环境和任务。但设计合适的奖励函数是影响强化学习效果的关键因素,尤其是长程任务的奖励函数设置是非常复杂。另外强化学习的所需的样本量很大,用真机训练成本会很高。通过仿真模拟器进行数据采集,数据成本低,可以大规模获取。足式控制借助仿真数据和强化学习在训练效果上取得了突出的表现,我们看到的各类惊艳的足式机器人 demo ,几乎都是在仿真环境中训练出来。整体而言, RL locomotion (运动控制)已经有相对成熟的解决方案,但 RL manipulation (灵巧操作)仍处于早期阶段。

与语言大模型类似,具身智能中同样有具身大模型的概念,相应的同样会面临通用泛化性、准确率等问题,也会面临 pretrain post train 的挑战与机会。随着越来越多的具身智能科技公司成立,关于技术路线、数据来源之争在持续演进

清华北大是国内具身智能创新的先锋,本文将以其中三家具身智能公司为例, 着重讨论具身智能的技术路线和数据来源问题。

1 银河智能

2023 年初成立的银河通用背后是前如布科技联创尹方鸣和姚腾洲,科学家是北大助理教授王鹤。银河通用是低成本仿真路线的拥护者,经过 2 年努力于近期重磅发布了 GraspVLA ,思路与 RoboCasa RoboGen 等类似,在海量合成的仿真环境中合成机器人数据。但 GraspVLA 只关注抓取任务,将预训练的 AnyGrasp 模型部署到仿真中采集大量数据来训练一个 VLA 。在仿真中可以加入很多随机化、以提升 VLA 的泛化性。

AnyGrasp GraspVLA OpenVLA demo 视频对比:

2 灵初







请到「今天看啥」查看全文