作者 | 一辄@知乎 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/703097381
点击下方
卡片
,关注“
自动驾驶之心
”公众号
>>
点击进入→
自动驾驶之心
『
具身智能
』
技术交流群
本文只做学术分享,如有侵权,联系删文
前几天听了王鹤老师的工作分享,感觉很有趣,之后有时间把论文都看一遍,现在简单记下思路
王鹤老师也是银河通用的创始人,现在银河应该融了有3个亿了。无论从具身科研主题,还是做公司来讲,技术逻辑是闭环的,故事脉络很清晰。也听说银河在做药店前置仓的取药探索
我也是具身新手上路,以下部分观点是我个人的理解,如有错误,麻烦指出讨论,谢谢!
本篇文章逻辑:
什么是具身智能 → 什么是具身智能大模型 → 王鹤老师组具身思路 → 具身感兴趣的一些点
什么是具身智能
前几天还听了圆桌讨论具身智能,主持人提的第一个问题就是它的定义。有些嘉宾提到了交互、数据等,我印象比较深的是上交的卢策吾老师提出的最简单的一个定义,具身智能就是具备身体的智能
其实也就是三维物理空间里机器人的智能。它的目标就是听从人类模糊指令做事,有一定自主性的表现。比如在家居场景下,人类坐在卧室说,我口渴了,机器人能自动到厨房的冰箱中拿一瓶可乐递给人类
应该是卢老师提的吧,有几个嘉宾坐在那里,过了几天我有点记不太清了qaq,好像记得那个讲话位置是卢老师
什么是具身智能大模型
从物理空间的角度来划分,大模型可以分为非具身大模型(Disembodied Model)、具身智能大模型(又被叫做机器人大模型)(Embodied VLA Model)。它们的区别是能否生成
运动姿态
(例如夹爪的末端位姿等),即是否能跟物理机器人联系起来。GPT是前者,RT是后者
个人觉得,目前具身大模型应该可以分为两大流派。一类是RT这种端到端大模型。一类是分层具身大模型(王鹤老师组是)
端到端具身大模型
以RT2为典型代表。输入是图像及文本指令,输出是夹爪末端动作。直接端到端地实现从人类指令到机械臂执行
但目前这类端到端的大模型有2个重要缺点:
第一,
训练数据难收集
,而泛化性差。谷歌花了上千万美金16个人耗时17个月收集得到了13万条厨房数据训练RT,模型在厨房表现很好,但除了厨房成功率却骤降至30%。这种泛化性难其实一定程度上也是数据采集没有做到scalable。归根到底就是数据问题