专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

目录

相关文章推荐

超级美工 · 裁员了，做好准备吧！设计师们看好这个赛道！ · 4 天前

电商报Pro · 快手开始收紧，商家虚假营销将被永久封杀 · 昨天

电商头条 · 刘强东联手雷军甩出王炸 · 昨天

浙江省网商协会 · 深圳市监局回应翻新手机流入“百亿补贴” · 昨天

浙江省网商协会 · 深圳市监局回应翻新手机流入“百亿补贴” · 昨天

电子商务研究中心 · 【315报告】“啄木鸟家庭维修”2024电诉 ... · 2 天前

51好读 › 专栏 › 自动驾驶之心

北大王鹤老师组 | 对具身智能的思路研究

自动驾驶之心 · 公众号 · · 2024-10-02 00:09

正文

作者 | 一辄@知乎编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/703097381

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『具身智能』 技术交流群

本文只做学术分享，如有侵权，联系删文

前几天听了王鹤老师的工作分享，感觉很有趣，之后有时间把论文都看一遍，现在简单记下思路
王鹤老师也是银河通用的创始人，现在银河应该融了有3个亿了。无论从具身科研主题，还是做公司来讲，技术逻辑是闭环的，故事脉络很清晰。也听说银河在做药店前置仓的取药探索
我也是具身新手上路，以下部分观点是我个人的理解，如有错误，麻烦指出讨论，谢谢！

本篇文章逻辑：

什么是具身智能 → 什么是具身智能大模型 → 王鹤老师组具身思路 → 具身感兴趣的一些点

什么是具身智能

前几天还听了圆桌讨论具身智能，主持人提的第一个问题就是它的定义。有些嘉宾提到了交互、数据等，我印象比较深的是上交的卢策吾老师提出的最简单的一个定义，具身智能就是具备身体的智能

其实也就是三维物理空间里机器人的智能。它的目标就是听从人类模糊指令做事，有一定自主性的表现。比如在家居场景下，人类坐在卧室说，我口渴了，机器人能自动到厨房的冰箱中拿一瓶可乐递给人类
应该是卢老师提的吧，有几个嘉宾坐在那里，过了几天我有点记不太清了qaq，好像记得那个讲话位置是卢老师

什么是具身智能大模型

从物理空间的角度来划分，大模型可以分为非具身大模型（Disembodied Model）、具身智能大模型（又被叫做机器人大模型）（Embodied VLA Model）。它们的区别是能否生成 运动姿态 （例如夹爪的末端位姿等），即是否能跟物理机器人联系起来。GPT是前者，RT是后者

个人觉得，目前具身大模型应该可以分为两大流派。一类是RT这种端到端大模型。一类是分层具身大模型（王鹤老师组是）

端到端具身大模型

以RT2为典型代表。输入是图像及文本指令，输出是夹爪末端动作。直接端到端地实现从人类指令到机械臂执行

但目前这类端到端的大模型有2个重要缺点：

第一， 训练数据难收集 ，而泛化性差。谷歌花了上千万美金16个人耗时17个月收集得到了13万条厨房数据训练RT，模型在厨房表现很好，但除了厨房成功率却骤降至30%。这种泛化性难其实一定程度上也是数据采集没有做到scalable。归根到底就是数据问题

请到「今天看啥」查看全文

推荐文章

超级美工 · 裁员了，做好准备吧！设计师们看好这个赛道！

4 天前

电商报Pro · 快手开始收紧，商家虚假营销将被永久封杀

昨天

电商头条 · 刘强东联手雷军甩出王炸

昨天

浙江省网商协会 · 深圳市监局回应翻新手机流入“百亿补贴”

昨天

浙江省网商协会 · 深圳市监局回应翻新手机流入“百亿补贴”

昨天

电子商务研究中心 · 【315报告】“啄木鸟家庭维修”2024电诉宝用户投诉数据出炉：获13次“不建议下单”评级

2 天前

THLDL领导力 · 怎样和小人相处？（精辟！）

8 年前

V保险 · 三岁男童检出血癌，治疗两月花费15万，少儿重疾保险一定要买！

8 年前

迷彩虎 · 辣评丨中国宣告歼20服役吓坏了谁？ 2025年搞个大新闻

8 年前

V保险 · 买40年公寓的购房者要哭晕！商住房土地产权到期后房子或被国家无偿收回。马云是这么说的...

7 年前

iWeekly周末画报 · 玩味糖果色珠宝，为你的夏日造型加分

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!