专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
电商头条  ·  刘强东联手雷军甩出王炸 ·  昨天  
浙江省网商协会  ·  深圳市监局回应翻新手机流入“百亿补贴” ·  昨天  
浙江省网商协会  ·  深圳市监局回应翻新手机流入“百亿补贴” ·  昨天  
电子商务研究中心  ·  【315报告】“啄木鸟家庭维修”2024电诉 ... ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

北大王鹤老师组 | 对具身智能的思路研究

自动驾驶之心  · 公众号  ·  · 2024-10-02 00:09

正文

作者 | 一辄@知乎  编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/703097381

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

>> 点击进入→ 自动驾驶之心 具身智能 技术交流群

本文只做学术分享,如有侵权,联系删文

前几天听了王鹤老师的工作分享,感觉很有趣,之后有时间把论文都看一遍,现在简单记下思路
王鹤老师也是银河通用的创始人,现在银河应该融了有3个亿了。无论从具身科研主题,还是做公司来讲,技术逻辑是闭环的,故事脉络很清晰。也听说银河在做药店前置仓的取药探索
我也是具身新手上路,以下部分观点是我个人的理解,如有错误,麻烦指出讨论,谢谢!

本篇文章逻辑:

什么是具身智能 → 什么是具身智能大模型 → 王鹤老师组具身思路 → 具身感兴趣的一些点

什么是具身智能

前几天还听了圆桌讨论具身智能,主持人提的第一个问题就是它的定义。有些嘉宾提到了交互、数据等,我印象比较深的是上交的卢策吾老师提出的最简单的一个定义,具身智能就是具备身体的智能

其实也就是三维物理空间里机器人的智能。它的目标就是听从人类模糊指令做事,有一定自主性的表现。比如在家居场景下,人类坐在卧室说,我口渴了,机器人能自动到厨房的冰箱中拿一瓶可乐递给人类
应该是卢老师提的吧,有几个嘉宾坐在那里,过了几天我有点记不太清了qaq,好像记得那个讲话位置是卢老师

什么是具身智能大模型

从物理空间的角度来划分,大模型可以分为非具身大模型(Disembodied Model)、具身智能大模型(又被叫做机器人大模型)(Embodied VLA Model)。它们的区别是能否生成 运动姿态 (例如夹爪的末端位姿等),即是否能跟物理机器人联系起来。GPT是前者,RT是后者

个人觉得,目前具身大模型应该可以分为两大流派。一类是RT这种端到端大模型。一类是分层具身大模型(王鹤老师组是)

端到端具身大模型

以RT2为典型代表。输入是图像及文本指令,输出是夹爪末端动作。直接端到端地实现从人类指令到机械臂执行

但目前这类端到端的大模型有2个重要缺点:

第一, 训练数据难收集 ,而泛化性差。谷歌花了上千万美金16个人耗时17个月收集得到了13万条厨房数据训练RT,模型在厨房表现很好,但除了厨房成功率却骤降至30%。这种泛化性难其实一定程度上也是数据采集没有做到scalable。归根到底就是数据问题







请到「今天看啥」查看全文