导 读
具身智能将带来产业链的重构。
传统的机
器人产业链主要分为上游的零部件供应商、软件系统提供商、中游的设备制造商和下游的应用场景。而在具身智能时代,机器人产业链或将发生重大变化。从上游角度来看,具身智能机器人多为人形机器人,从成本、续航能力、零部件性能等方面对机器人提出了新的需求。在传感器方面,由于机器人多用于复杂场景,所需传感器数量和性能需求都得到大幅度提升;与此同时,芯片的算力需求也大幅度提升。中游的 OEM 厂商部分会选择自研软件系统,部分会采购上游的软硬一体化解决方案。最后,下游的应用场景将不断拓展。具身智能机器人可以应用于制造业、服务业、医疗保健等多个领域,应用场景和能力边界都得到了拓展。
随着 AI 基础模型技术持续迭代,特斯拉、谷歌等巨头也发现了人形机器人的潜在商业机会,分别从硬件和软件入手布局人形机器人领域。早在2021 年的 Tesla AI Day,特斯拉就宣布其在研发人形机器人 Optimus;随后的几年时间,Optimus 经历了多轮的迭代,机动性和灵活性得到了大幅度提升。谷歌从 2022 年开始,在软件层面推出了一系列机器人模型,包括 SayCan、Gato、RT-1、PaLM-E、RoboCat、RT-2 和 RT-X,逐步实现了模型自主可靠决策、多模态感知和实时精准运控能力的结合,同时展现出泛化能力和思维链能力。
在软件层面,特斯拉希望机器人复刻智能驾驶技术路径。
由于人型机器人算法与智能驾驶系统相类似,特斯拉机器人软件算法部分移植了 FSD 智能驾驶系统,计算芯片移植了 HW3.0 智驾芯片。智能驾驶系统与人形机器人系统具备较高的相似性,都是将 AI 能力赋能于复杂硬件设备,串联起众多传感器、运算芯片与执行器,实现智能体的自主行动。两者软件算法也有较高相似性,都具备了完整的感知、决策规划、控制的循环链路。
这也是特斯拉能够快速切入人形机器人领域的核心原因。人形机器人系统相比智能驾驶系统,在微观层面的要求更高。智能驾驶系统只需要识别道路常见物体,而人形机器人系统不仅在物体识别能力上有更高要求,还需要辨别物体重量、质感、抓取方式等更多要素,因此需要更高的 AI 能力。
特斯拉自研 Dojo 超算平台支撑人形机器人的底层算力。
特斯拉机器人 Optimus 采用Dojo 超算平台作为底层 AI 算力支撑。Dojo 芯片架构平台由 Dojo D1 芯片组成,拥有一个大规模计算平面,极高宽带和低延迟,训练模块最大程度上实现了带宽的保留。D1 芯片本身采用 7 纳米制造工艺,算力为 22.6 Flops@FP32,超过英伟达 A100 的19.5Flops@FP32,配合特斯拉自研的高带宽、低延迟的连接器。预计到 2024 年 10 月,Dojo 超算平台的有望匹配 30 万块英伟达 A100 芯片的算力。据摩根斯坦利数据显示,特斯拉自研的 Dojo 超算平台有望为公司节省超过 65 亿美元的算力投入(对比购入同等算力下的 A100 芯片算力集群)。
Dojo D1 超算芯片优化了 GPU 通信协议,相比 NVLink 架构效率更高。
在大模型训练时,单独一块超算芯片的显存难以储存大模型所有的参数量,而是需要上千块超算芯片的显存分别承载其中一部分;为了保证超算显存之间的高效联通,就需要英伟达 NVLink这样的 GPU 通信协议。Dojo 超算平台优化了超算芯片结构,将 D1 芯片以 5x5 的方式封装形成一个瓦片(training tile),然后将 6 个瓦片组合成一个服务器。瓦片之间可以进行快速互联,不需要经过中间步骤。数据可以通过接口处理器进行连接,通过充电瓦片之间的二维扩展,获得比 GPU 更高的互联带宽。此外,特斯拉在软件算法方面通过变更自己的配套式框架支持和编译的 LVM 价值取代驱动,从应用层到服务器层形成了架构的完整融合。Dojo 超算平台的架构使其在功耗、算力和成本方面都优于英伟达的 GPU。
谷歌:从软件入手
谷歌从软件层面入手,持续迭代机器人模型。
自 2022 年开始,谷歌即尝试开发具身智能模型。2022 年 4 月推出的 SayCan 模型将机器人的决策过程拆分为两部分——Say和 Can,可以将高层级任务拆解为可执行的子任务;其后,为了解决机器人的多模态能力,谷歌在 5 月又推出了 Gato 模型,可以将多模态数据 token 化输入 Transformer 架构中;2023 年 1 月推出的 RT-1 距离机器人本身又更近了一步,可以将机器人轨迹数据输入 transformer 架构,得到离散化动作 token;2023 年 3 月推出的 PaLM-E 模型建立在 PaLM 通用模型基础上,多模态性能更进一步;6 月推出的 RoboCat 将多模态模型Gato 与机器人数据集相结合,使得 RoboCat 具有在模拟环境与物理环境中处理语言、图像和动作等任务的能力;7 月推出的 RT-2 模型是 RT-1 模型与 PaLM-E 模型的结合,标志着机器人模型从 VLM 进化到 VLA 的第一步,自此机器人具备了初步的具身智能能力;2024 年 1 月推出的 RT-X 在保持原有架构的基础上,实现了具身智能 5 种能力全面提升。
2024 年 1 月 4 日,谷歌发布了三项人形机器人模型相关成果,分别为 RT-Trajectory、SARA-RT、AutoRT。
三款模型以谷歌之前发布的 RT-1、RT-2 模型为基础,分别从任务泛化能力、任务决策速度、训练数据规模三个层面提升了 RT 系列机器人模型的性能。
RT-Trajectory:提升机器人模型泛化能力。
传统的机器人模型面对从未见过的任务,会将其拆解为多个简单动作;例如对于擦桌子,就可以拆解为“合上夹具、向左移动、向右移动”,这种拆解动作的路径泛化能力较低。RT-Trajectory 使用粗略的轨迹草图来提高机器人学习任务的泛化能力。通过训练时给机器人提供视觉提示,机器人任务的成功率得到了大幅度提升。凭借 RGB 图像的 2D 轨迹增强数据,RT-Trajectory 将机器人执行从未见过的任务的成功率从 29%提升至 63%。
SARA-RT:提升机器人任务决策速度。
谷歌 RT 模型采用 Transformer 架构,底层编码采用二次复杂度的注意力机制;因此面对两倍输入数据规模,RT 模型的算力需求会跃升至四倍,而响应速度是机器人模型最重要的评价标准之一;为了提高机器人的速度,谷歌在 RT 基础模型上开发了 SARA-RT。SARA-RT 采用向上训练的模型微调方法,将原来的二次复杂度转换为线性复杂度,同时保持了任务处理质量;因此大幅度降低了算力需求,保证机器人任务决策速度。SARA-RT-2 模型在获得简短的图像历史记录后,相比 RT-2 模型的精确度提升 10.6%,速度提升 14%。
AutoRT:扩充机器人可用训练数据规模。
AutoRT 结合了基础大模型(大语言模型(LLM)、视觉语言模型(VLM))和机器人控制模型(RT-1、RT-2),创建了一个可以在新环境中部署机器人用以收集训练数据的系统。AutoRT 可以同时指导多个配备视觉系统和末端执行器的机器人,在各种各样环境中执行多样化的任务,以此来主动收集机器人感知、决策与控制数据。谷歌 AutoRT 项目持续了 7 个月,实验证明,AutoRT 系统最多时共
能协调 52 个机器人的动作。
通过指导机器人在各种办公楼内执行各种任务,研究人员收集了涵盖 7.7 万个机器人试验,6650 个独特任务的多样化数据集。
此外,AutoRT 对机器人模型的价值对齐也做出了更新。
AutoRT 设置了安全护栏,它能够在机器人执行基于 LLM 的决策时提供需要遵守的基本规则。
OpenAI:模型赋能与风险投资
OpenAI 主要通过模型赋能与投资相关企业的方式布局人形机器人行业。
OpenAI 投资了人形机器人初创公司 1X Technologies 和 Figure AI。初创公司 Figure 将 OpenAI 的多模态模型用于机器人的感知决策任务中。根据视频显示,在与 OpenAI 合作 13 天之后,目前机器人已经可以通过自然语言流畅实现与人类的多轮对话,完成人类提出的拿出苹果,整理餐具的需求,并对任务总结评价。机器人灵巧手抓取动作稳定流畅,精确度较高,控制层面运动降噪较为成功。据 Figure AI 创始人 Bratt Adcock 称,所有机器人行为都没有经过远程操作,而是通过机器人的自我学习而来;机器人语言功能也是在模型训练之后得到的合成音效,无人类参与。
Figure 机器人初步实现了具身智能。
Figure 01 机器人得到 OpenAI 端到端的多模态模型 VLM 赋能,在感知层和决策层实现了融合。机器人在感知层面通过传感器接收语言、图像模态的数据后会直接交由 VLM 大模型进行推理。因此机器人大脑具备自主决策能力,可将复杂任务拆解成多个简单步骤,在任务被人类干扰后可重新规划任务,在复杂思维链能力上实现了突破,是第一个真正达到了初步具身智能的人型机器人。Figure AI在介绍中称,Figure 01 已经在执行真实的物理世界任务,拥有自主导航、识别箱子和任务优先级排序的能力,且这些能力能够迁移推广至其他类似的任务当中。
英伟达:从芯片与中间件入手
英伟达从芯片和中间件层面布局具身智能产业链。
2024 年 GTC 大会,英伟达在硬件领域发布了Jetson系列边缘计算芯片;最新的Jetson Thor GPU其采用 NVIDIA Blackwell 架构,配备了 transformer engine,算力达到 800 Flops@FP8,可以很好的与软件平台相互兼容;与此同时,在软件领域,英伟达发布了 GROOT 机器人基础模型,可以在任何环境中为机器人创建新的基础模型,同时使机器人能够理解自然语言,并通过观察人类行为来进行动作模仿。
英伟达以 AIGC 赋能数字孪生系统,提升了机器人可用训练数据规模。
英伟达发布了多款机器人开发中间件,包括用于强化学习的 Isaac Lab 和用于计算编排服务的 OSMO,可以运行数千个用于机器人学习的并行仿真。Isaac 软件解决方案包含 Isaac 机器人操作系统和 Issac 软件开发平台,可以快速实现机器人的软件开发。目前全世界已有超过120 万机器人开发者选择英伟达机器人的解决方案,其中包括亚马逊云服务、Cisco、西门子等龙头厂商。
从行业整体来看,布局人形机器人的巨头可以分为自下而上和自上而下两条路径,分别以特斯拉和谷歌、OpenAI 为代表。两方从硬件降本和机器人大脑两个核心痛点出发,发挥各自优势,占据市场领先地位。
特斯拉:自下而上
从规则驱动转向数据驱动。
自 L3 级智驾开始,特斯拉 FSD V12 实现了从规则驱动逻辑到端到端神经网络架构的重大转变。在 L3 级智能驾驶出现之前,特斯拉依赖 30 多万行C 语言代码来为 FSD 划定“围栏”,根据环境情况翻阅规则库给出驾驶指示;而 V12 版则给系统投喂海量人类司机在海量的场景中的驾驶行为数据来训练自动驾驶神经网络大模型,系统本身精简到只有 3000 行代码;车辆在行驶时,FSD V12 会让神经网络 AI根据实时环境自主决定驾驶方式,彻底重塑了智能驾驶系统的逻辑。
在软件算法层面,特斯拉机器人同样复刻了智能驾驶算法的开发模式。
与智能驾驶类似,端到端的人形机器人系统同样由规则驱动转向数据驱动。传统机器人算法本质上由规则驱动,开发者基于机器人作业规则和需求,参考人类动作的经验,制定预定义的规则和逻辑来进行决策,算法中包含着若干规则算法库;场景越复杂,规则设定也越复杂;但由于现实场景存在较多 Corner Case,所以仅靠规则算法库难以覆盖所有场景,泛化性较低。相比之下,具身智能机器人大脑由数据驱动,开发者先收集大量机器人对齐数据,再使用 AI 算法对数据进行训练和学习,以得出最优的活动策略。
数据驱动的系统泛化能力与执行效率更高。
基于雷达控制的智能驾驶系统是代码驱动,可能在绝对安全性上的保障要更好,但天量的场景越积越多,算法就会变得越来越庞大和臃肿,导致自动驾驶决策越来越慢,决策效率下降;而基于神经网络大模型是数据驱动,随着算力和训练数据的飞速提升,大模型的能力和覆盖场景也能飞速进化,且执行端代码非常简洁,执行效率越来越高,执行结果比肩人类司机。
数据驱动的系统降低了对雷达等传感器的需求。
在配备了激光雷达、毫米波雷达的驾驶系统中,雷达传感器的优先级必须高于摄像头,才能实现雷达对安全性的兜底作用。这种系统本身就是一种规则设定,而不是经过神经网络进行决策。相比之下,由数据驱动的智能驾驶系统模拟人类的驾驶逻辑,舍弃了针对传感器和图像数据的控制算法和规则判决,对雷达等传感器的需求较低。
成本控制是特斯拉的核心能力。在机器人领域特斯拉相比于其他厂商或更快实现产业链降本。
回顾特斯拉汽车的发展路线,特斯拉降本的能力主要体现在两个层面。
在商业模式方面,特斯拉采用了从高溢价到平价的产品发布路线。
回顾特斯拉汽车的商业模式,特斯拉首先针对高端客户发布高溢价产品,通过资金回流实现商业模式的正向循环;之后逐渐加大产业投入,待产业链降本之后再针对普通用户推出平价产品。特斯拉在 2008 年推出了 11 万美元的 Roadster,主要针对的是富裕的早期电动车爱好者和小众市场;随后特斯拉在 2012 年和 2015 年推出了 Model S 和 Model X,售价 7-10 万美元;它延续了特斯拉的高性能和高端市场定位,但目标客群有所拓展;在 2017 年与2019 年特斯拉针对下沉市场推出了 Model 3 与 Model Y,售价下沉到了 3.5 万美元左右。
在人形机器人领域,特斯拉或复刻相同的产品节奏,首先将人形机器人用于高价值量核心场景,待商业循环形成之后,再通过降本的方式逐步提升产品渗透率。
在降本模式方面,特斯拉在落地过程中找到了成本与智能化的平衡点。
早期的 FSD 系统采用多传感器融合方案,配备 12 个超声波雷达,一个毫米波雷达,以及前后视觉摄像头;随着智能化的提升,特斯拉汽车降低了对雷达传感器的依赖程度,第二阶段的 FSD系统采用纯视觉方案,舍弃了所有的雷达但增加了摄像头数量;第三阶段的 FSD 系统为了提升高速行驶安全性,增配了 4D 毫米波雷达和侧视摄像头。FSD V12 由于采用端到端的系统,对雷达等传感器需求也逐渐下降,因此 BOM 成本也随之下降。
机器人或复刻特斯拉汽车减配降本的路径,在落地过程中找到成本与智能化的平衡点。
谷歌与 OpenAI:自上而下
谷歌与 OpenAI 采用自上而下的模式布局人形机器人领域。
谷歌与 OpenAI 在模型领域拥有深厚的技术壁垒,因此决定绕过传统的机器人算法开发模式,直接开发由数据驱动的具身智能模型。与此同时,由于缺少硬件领域相关能力,两家厂商在未来或选择与机器人制造厂商合作,以软件服务商的角色赋能机器人 OEM 厂商。
谷歌与 OpenAI 的商业模式可以以安卓系统作为参考。
回顾智能手机软件与硬件的结合历程,可以简单将其分为两条发展路径,分别是软硬一体的 IOS 模式和软硬解耦的安卓模式。在人形机器人落地的过程中,
谷歌与 OpenAI 或可以参考安卓模式,给主机厂做人形机器人的系统赋能与生态运营。
Source:长江证券
免责声明:
我们转载此文出于传播更多资讯之目的,
本文所用的视频、图片、文字如涉及作品版权问题,请第一时间联系小
编:
13510607570
(同微信),我们将立即删除,无任何商业用途。