Chat GPT爆火的背后,不仅展示了AI大模型在自然语言处理方面的强大能力,也让人看到了AI大模型与机器人深度融合后,将爆发出巨大潜力的可能性。
AI大模型是推动人形机器人迈向AGI(通用人工智能)的关键因素,再进一步解释,即基于AI技术打造的具智智能大脑将帮助人形机器人实现在通用应用场景下的落地。
具身智能技术演进路线
大语言模型(LLM)可以帮助机器人提升复杂任务理解、连续对话、零样本推理等方面的能力。然而单LLM是不够的,它属于非具身智能大模型,人形机器人要通往AGI,需要专门针对具身智能领域的多模态大模型 —— 具身智能大模型,来提升机器人在感知、决策、控制、交互等方面的能力。
那么,什么是具身智能大模型,它与非具身智能大模型有什么本质区别呢?笔者浅显理解:他们本质的区别在于服务的对象不同。非具身智能大模型服务的对象是人类,输出的内容是给人看或者给人读,更多还是在人机交互、内容生成等方面展现价值。
而具身智能大模型的服务对象是机器。具身智能大模型输出的内容是需要机器人能够理解,并最终要转化为具体可执行动作的控制指令,以机械臂为例,最终输出可能就是对电机的控制信号。
具身智能大模型被称作为机器人的“大脑”,搭载具身智能大模型,赋予人形机器人“最强大脑”,已成为人形机器人发展的必然趋势。总之,“具身智能大模型 + 机器人”为AGI 走进物理世界提供了更多的可能性。
1)科技大厂和科研院校 —— 谷歌的RT1,RT2以及RTX、英伟达的Eureka和GR00T、英伟达和斯坦福李飞飞团队合作开发的Vima、斯坦福李飞飞团队的VoxPoser以及Meta和CMU(卡内基梅隆大学)联合打造的RoboAgent等。2)初创公司 —— PI(Physical Intelligence)的π0、Skild AI的Skild Brain以及Covariant的RFM-1。RT-1 是谷歌迈向视觉语言动作(VLA)模型的一个尝试,它的数据集包含了视觉、语言和机器人动作三个维度。RT-1是一个重新设计的网络结构,主体是预训练的视觉模型加上用解释器处理过的语言指令,两部分再一起通过transformer架构输出机器人的动作指令,学习范式是模仿学习。但RT-1的能力很大程度上由数据集和任务集决定,对新指令的泛化仅限于以前见过的概念的组合,且要进一步扩大数据集规模是一件非常困难的事。RT-1模型结合了FiLM(Feature-wise Linear Modulation)调节的EfficientNet、TokenLearner以及Transformer,以实现高效的推理速度和实时控制的可行性。 使用预训练的Efficient Net和Universal Sentence Encoder来处理图像和文本指令,提取特征。通过FiLM层将图像特征和文本嵌入结合起来,以增强模型对任务相关特征的提取。RT-1 的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿( x, y, z, roll, pitch, yaw)、gripper stαtus 、模式转换指令构成。RT-1专注于提升机器人在真实世界任务中的泛化和实时控制能力。RT-2 以视觉语言模型(VLM)PaLM-E 和PaLI-X 为支柱,相当于赋予机器人规模足够大的数据库,使其具备识别物体和了解物体相关信息的能力。RT-2 还使用了RT-1 的数据集进行联合微调,通过加入机器人动作数据进行训练,使其具备动作执行能力。RT-1 是利用预训练模型对视觉与语言进行编码,然后再通过解码器输出动作。与之不同, RT-2 把语言、动作、图片放在一个统一的输出空间,利用 VLMs 产生语言,也可以理解为“动作”为特殊的语言。总的来说, RT-2 分 为两步:首先对 VLMs 在大规模互联网数据进行预训练,然后在机器人任务上微调。 - 视觉语言模型预训练:RT-2基于PaLM-E和PaLI-X视觉语言模型在视觉解释和推理任务 上预训练。预训练任务从根据 语言创作图到单个对象与其它对象 之间关系问题的回答。
- 机器人动作微调:RT-2 直接把动作tokens当作语言tokens,把 RT-2-PaLI-X 模型和 RT-2-PaLM-E 模型在机器人控制任务上微调。
RT-X由基于Transformer的RT-1-X模型和视觉语言动作模型(VLA)RT-2-X组成。 谷歌基于Open X Embodiment数据库来进行训练,得到RT-X模型,除了大大扩展了机器人动作的范畴,还产生了“涌现”的能力。2023年10月4日,Google DeepMind开放训练数据集Open X-Embodiment,其包含超过100万条真实的机器人轨迹数据,涵盖22种机器人,展示了527项技能(160266项任务)。 多样化的数据集使得RT-X模型在训练过程中具备了处理不同任务和环境的能力,机器人能够更灵活地适应不同的应用场景,例如仓库搬运、防爆救险、家庭护理等。 虽然RT-1-X与RT-1的网络架构相同,但因为RT-1-X采用了多样化的数据集进行训练,RT-1-X模型在特定任务上(如开门)的平均性能比RT-1和原始模型提升50%。RT-2-X的涌现能力约为RT-2的3倍,动作指令也可从传统的绝对位置拓展至相对位置。RT-2-X泛化能力约为原始模型的3倍,从27.3%提高至75.8%。RT-X 的局限性在于模型对于自身身体和环境的认知能力不足,可能导致在处理第三视角视频输入时的性能下降。Eureka系统基于GPT-4 打造,可自动训练实体机器人的动作指令,可支持机器人实现30 余种复杂动作。 另外,Eureka具备零样本生成、编写代码和语境改进等能力,可对强化学习的奖励设计流程、代码进行大幅度优化,达到人类专家级水平。Eureka 的关键创新在于生成奖励程序,在Eureka 生成奖赏设计方案时,开发者不需要额外输入任务提示或撰写预定义的奖赏范本,只需结合人工修正奖赏使机器人动作更符合开发人员的意图,从而使机器人平均训练效率提升超过50%。Eureka 系统采用动态可解释教学(DIET)的训练流程,大幅提高了训练效率并缩短了开发周期。 在该过程中,机器人的行动会被记录和分析并用于动作调整,从而能够使机器人更快、更高效的完成任务。
GR00T 能够驱使机器人理解自然语言、视频和人类演示等多模态指令,从而增强学习技能和处理任务的协调性和灵活性;使其模仿人类动作以更快融入现实世界并与人类进行互动。
GR00T 基于英伟达深度技术堆栈开发,开发者可以在Isaac Lab 中进行模拟,在OSMO 上进行训练,并部署到Jetson Thor 上。
GROOT包括以下几项:
GR00T-Gen 多样化环境生成:用于在 OpenUSD 中生成机器人任务和模拟环境,以训练通用机器人执行操作、运动和导航。
GR00T-Mimic 机器人运动和轨迹生成:可从遥控演示中生成运动数据,用于模仿学习。
GR00T-Dexterity 精细灵巧操作:一种基于强化学习 (RL) 的机器人灵巧性策略开发方法。此工作流程可以创建端到端、像素到动作的抓取系统,该系统在模拟中经过训练并可部署到物理机器人上。
GR00T-Mobility 移动和导航:该工作流程将世界建模与动作策略学习和 RL(人类强化学习) 微调分离开来,从而增强了灵活性,支持多种数据源以实现更大的泛化。
GR00T-Control 全身控制(WBC):一套用于开发WBC的高级运动规划和控制库、模型、策略和参考工作流程。参考工作流程可锻炼各种平台、预训练模型和加速库。
GR00T-Perception 多模态感知:一套高级感知库、基础模型以及基于 Isaac Sim 和 NVIDIA Isaac ROS 构建的参考工作流程。
VIMA 基于T5 模型,将文本和多模态输入交错融合,结合历史信息预测机器人的下一步行动动作。VIMA 具身大模型是一种基于Transformer架构的模型,它能够自回归地输出动作序列以响应输入的多模态提示。 该模型利用跨注意力机制条件化于多模态提示,并针对机器人操作任务定制了一系列组件。 在动作解码阶段,VIMA通过一组动作头将预测的动作特征映射至动作空间,这些头部分别负责解码SE(2)姿态的离散坐标和旋转表示,最终通过仿射变换整合为连续动作输出。VoxPoser 从大型语言模型和视觉-语言模型中提取机会和约束,以构建3D价值地图,来供运动规划器使用,用于零样本合成日常操纵任务的轨迹,从而实现在真实世界中的零样本机器人操纵。- 处理:该部分由LLM 和VLM 两部分组成,其中LLM 根据输入的信息内容编写代码。所生成的代码再与VLM 进行交互,并生成相应指令的操作指示地图(3D Value Map),该操作指示地图标记了“在哪里行动”以及“如何行动”;
- 控制:将操作指示地图输入至动作规划器中,以合成机器人最终需要执行的操作轨迹。
传统方法需要进行额外的预训练,而VoxPoser 系统通过大模型指引机器人与环境进行交互,有效解决了机器人训练数据稀缺的问题,从而实现零样本的日常操作任务的轨迹合成。RoboAgent的核心在于其多任务动作分块Transformer(MT-ACT)架构,该架构通过语义增强和高效的策略表示来处理多模态多任务机器人数据集。 它通过在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集,并采用一种具有高效动作表示法的新型策略架构,以在数据预算范围内恢复高性能策略。 该模型仅在7500个轨迹的训练下,实现了12种不同的复杂技能,包括烘焙、拾取物品、上茶、清洁厨房等任务,并能在100种未知场景中泛化应用。PI(Physical Intelligence)- Chelsea Finn (联合创始人):斯坦福大学计算机科学与电气工程系助理教授。
- Sergey Levine(联合创始人):伯克利“学术狂魔”,UC Berkley电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法。
- Karol Hausman(联合创始人兼首席执行官):之前担任谷歌大脑的高级研究科学家,同时也是斯坦福大学的兼职教授。² Brian Ichter(联合创始人):先后在谷歌大脑和谷歌DeepMind的机器人团队任职。² Suraj Nair(联合创始人):曾担任丰田研究院 ML 研究团队的研究科学家,从事 ML、机器人和 CV 交叉领域的工作。
2014年10月,PI发布了通用机器人模型 —— π0( pi-zero),该模型旨在赋予机器人执行多种家务任务的能力,如折叠衣物、清洁桌面和组装纸箱等。 与LLM不同,π0涵盖了图像、文本和动作,并通过训练机器人的具身经验获得物理智能,并最终可以直接输出低级电机执行指令。 π0 训练所使用的数据包括:互联网上的视觉语言数据、开源机器人操作数据集以及PI自己的数据集。 第一,从OpenAI的GPT-4V、谷歌的Gemini这样的预训练视觉语言模型(VLM)中继承语义知识和视觉理解能力,PI团队基于此获得30亿参数的VLM进行再调整,以适应机器人的实时灵活控制; 第二,基于PI团队自研的流匹配(flow matching)算法,为VLM模型提供连续动作输出,以使其可以实现50次/s的频率输出运动控制指令; 第三,基于开源的机器人数据集和互联网数据训练的VLM,PI团队形成了自己的视觉-语言-动作流匹配模型,并通过自采集的高质量机器人数据对这一模型进行后续训练; - 种子轮融资:2024年3月,PI完成7000万美元的种子轮融资,融资后估值为4亿美元。投资方包括OpenAI、Thrive Capital、Sequoia Capital、Greenoaks Capital Partners、Lux Capital、Khosla Ventures等。
- A轮融资:2024年11月,PI获得4亿美元的投资,融资后估值达到24亿美元。投资方包括亚马逊创始人杰夫·贝索斯、OpenAI、Thrive Capital、Lux Capital 和 Bond Capital,Khosla Ventures 和红杉资本等。
- Abhinav Gupta(联合创始人兼总裁):曾在卡内基梅隆大学(CMU)机器人研究所担任教授。
- Deepak Pathak(联合创始人兼CEO):曾担任卡内基梅隆大学计算机科学学院的Raj Reddy助理教授,同时也是机器人研究所的成员。
Skild Brain是一个可扩展的机器人基础模型,具备使用性和灵活性的能力,可作为各种形式机器人的「通用」大脑,涵盖操作、移动和导航等功能。Skild 宣称其模型显现出了强大的泛化和涌现能力,并且有多于竞争对手 1000 倍的训练数据。他们利用远程操作机器人、随机任务执行以及大规模视频学习,训练出能处理复杂任务的智能系统。Skild Brain利用“人工好奇心”技术,使机器人具备探索未知环境的能力。 在现实世界中,Skild AI的机器人已经展现出强大的应急能力和自我学习能力。它们不仅能执行预设任务,还能在遇到新情况时自我调整,这无疑提高了工作效率和安全性。例如,它们能爬楼梯、越过障碍,甚至在没有明确指令的情况下捡起掉落的物品。- 种子轮融资:2023年7月,Skild AI完成种子轮融资,由光速创投领投。
- A轮融资:2024年7月,Skild AI完成3亿美元A轮融资,融资后估值高达15亿美元。投资方包括光速创投、软银、Coatue和亚马逊创始人杰夫·贝索斯领投,以及CRV、Felicis Ventures、Menlo Ventures、红杉资本、General Catalyst、SV Angel和卡内基梅隆大学跟投。
- Pieter Abbeel(联合创始人兼首席科学家):加州大学伯克利分校的教授,机器人和人工智能领域的知名专家,深度强化学习的先驱。他曾在吴恩达的指导下完成博士学位,并在伯克利创立了机器人学习实验室。
- Peter Chen(陈曦)(联合创始人兼CEO):曾是OpenAI的研究科学家,也是加州大学伯克利分校人工智能研究实验室(BAIR Lab)的研究员,专注于强化学习、元学习和无监督学习。
- Rocky Duan(段岩)(联合创始人):曾任职于Open AI,担任研究科学家;在伯克利大学完成了博士学业。
- Tianhao Zhang(张天浩)(联合创始人):曾在OpenAI工作,攻读伯克利大学博士学位期间参与了Covariant的创立
2024年3月,Covariant宣布推出基于广泛互联网数据以及物理现实世界的深入交互数据而训练出的机器人基础模型 —— RFM-1。其核心目标是赋予机器人类似于人类的推理能力。RFM-1 被设计为一个多模态任意序列模型,此拥有80亿参数的转换器经过了文本、图像、视频、机器人动作以及一系列数值型传感器读数的综合训练。 通过将所有模式的数据投射至统一的空间,并执行自回归式的下一个标记预测任务,RFM-1 利用其包罗万象的输入与输出模式,以适应不同的应用需求。1)通过学习世界模型来理解物理,Covariant 开发的RFM-1 旨在解决现实环境下机器人技术所面对的复杂动力学和物理约束挑战。2)利用语言帮助机器人和人协作,RFM-1能够接受文本标记作为输入并预测出相应的输出,这极大地简化了操作界面。3)语言引导的机器人编程,RFM-1允许让机器人操作者和工程师得以用简洁的英语指导机器人执行精确的挑选动作。它免去了重新编程的需求,让人能够直接指导机器人。- C轮融资:2023年4月,Covariant完成7500万美元的C轮融资,总融资额达到2.22亿美元。该轮融资结束后,Covariant的估值达到了6.25亿美元。投资方包括Geoffrey Hinton、Yann LeCun、李飞飞、Jeff Dean、比尔·盖茨等学术/科技界大牛,以及Index Ventures、Radical Ventures等投资机构。
在国内,我们可以看到,华为、百度、科大讯飞、字节跳动等科技大厂推出的AI大模型基本上都属于非具身智能大模型。不过,他们应该很快会在近一两年内推出专门应用在机器人领域的具身智能大模型。另外,国内一些初创企业已经开始推出自己的具身智能大模型,包括有鹿机器人的Master 2000、若愚科技的九天大模型、千诀科技的千诀· 机器人大模型、穹彻智能的Noematrix Brain、X square(自变量机器人)的Great Wall系列的WALL-A模型以及千寻智能的具身智能大模型。- 陈俊波(创始人兼CEO):毕业于浙江大学计算机系,曾在阿里云、淘宝及菜鸟ET实验室、达摩院工作,曾担任阿里达摩院自动驾驶负责人。
- 谷祖林(联合创始人):阿里巴巴机器人前CEO、菜鸟网络ET实验室无人车项目负责人。他是连续创业者,也曾担任矩阵汽车总裁。
- 王健(联合创始人):毕业于浙江大学计算机科学专业,曾担任浙江网新恒天软件副总裁。
- 李昊(联合创始人):毕业于中科院光电技术研究所,曾先后担任淘宝搜索事业部深度学习团队的负责人和达摩院实景视觉理解&数智地球团队负责人
2023年,有鹿机器人联合阿里云通义千问共同发布LPLM-10B大模型,解决了传统具身模型延迟高、准确率低、泛化能力差等缺陷,可以实现在跨模态、跨场景、跨行业的数据中提取出许多共性信息,通用性极强。LPLM模型,专注于右脑的空间和控制能力的训练,并集成了千问大模型作为左脑,推出了完整的具身智能大脑。2024年3月,有鹿机器人推出基于LPLM-10B的Master 2000通用具身智能大脑。 通过模块化设计,Master2000可以集成到现有的各类专业设备中,如扫地机器人、物流车和工业叉车等,实现这些设备的智能化升级。2024年5月底,有鹿机器人正式签订一笔超千万元级别的具身智能通用大脑Master2000的订单,订单来自中国头部清洁设备制造商,采购“大脑”用于对现有全系产品进行智能化升级。- 天使轮融资:2024年5月,有鹿机器人完成超1亿元人民币的天使轮融资。投资方为BV百度风投、创新工场、元璟资本联合投资。
- 聂礼强(创始人兼董事长):现任哈尔滨工业大学(深圳)计算机科学与技术学院执行院长,科研聚焦于多模态内容分析及其在具身智能领域的落地。
- 张民(联合创始人兼首席科学家):哈尔滨工业大学(深圳)特聘校长助理,国内NLP领域的首位杰青。主要研究方向为预训练语言大模型及其在具身智能领域的应用。
- 孙腾(联合创始人兼CEO):是一位连续创业者,人工智能专业博士,研究方向为多媒体计算与具身智能。
九天大模型 —— 多模态大模型,总参数规模达130亿,训练数据超1500B tokens, 能完成多任务、多轮对话、中英翻译、思维链、工具使用等多种类型的指令数据, 在逻辑推理、关系推理、感知能力上都能呈现出较好的效果。 通过注入细粒度空间感知和高层语义视觉知识,九天大模型成功将图像级理解和区域级定位任务进行整合,多层次全面理解视觉场景,实现了更优的细粒度视觉理解和视觉空间推理能力。- 早期融资:2023年8月,若愚科技完成3000万元人民币的融资。
- 天使轮融资:2024年3月,若愚科技完成超过5000万元人民币的天使轮融资。投资方由东方精工领投,昆仲资本跟投,源合资本担任独家融资顾问。
- 高海川(创始人兼CEO):清华大学自动化系博士,自2018年开始作为组长带领类脑双臂机器人课题组,从0到1设计多款双臂自主决策机器人。
- 陈峰(首席技术顾问):中国首批类脑研究专家,承担多项中国脑计划重大课题。
千诀· 机器人大模型 —— 宣称是国内首个应用级机器人全栈大模型。解决机器人的环境感知(丘脑)、推理决策(大脑)、运动控制(小脑)的端到端解决方案。1)适用复杂环境、灵活任务ü大模型自动推理任务ü复用人类交互经验,在线调整决策流程;2)语言交互引导决策ü无需手柄或编程控制ü可以通过人类自然语言灵活下达任务;3)降低机器人大模型应用门槛、训练成本ü创新采用了分化解耦大脑组织结构和先进的离线预训练技术,显著减少对机器人实体数据的需求。总之,打造产品级机器人感知与决策大模型,实现全自主工作、动态应对环境变化,让通用机器人也能跨形态、跨环境、跨任务和跨对象,实现真正的泛化。
- 天使轮融资:2024年11月,千诀科技完成了数千万元人民币的天使轮融资。投资方由英诺天使基金领投,水木清华校友种子基金、启迪之星创投、九尚资本等跟投。
- 王世全(联合创始人兼董事长):他同时也是非夕科技联合创始人,师从两位机器人领域的泰斗:Mark Cutkosky教授和Oussama Khatib教授,现任上海交通大学客座教授及上海市科协常委。
- 卢策吾(联合创始人):师从李飞飞教授和 Leo Guibas 教授,现任上海交通大学教授。
2024年6月,穹彻智能发布穹彻具身大脑Noematrix Brain 。 穹彻具身大脑Noematrix Brain具备全链路的具身智能技术框架,提供“以力为中心”的两个具身智能大模型(实体世界大模型和机器人行为大模型)、原子技能库AnySkill、基础软件框架及相关开发者工具链,与各种类型的机器人本体、甚至工业设备都能有机结合,助力机器人轻松掌握更多技能、实现更多应用。Noematrix Brain集成了实体世界大模型和机器人行为大模型。- 实体世界大模型通过训练学习操作物理常识表征,使穹彻具身大脑能够理解“世界是什么”。它能够处理复杂物体,如柔性衣物的折叠等任务,展现了穹彻具身大脑对复杂物体操作的顶级能力;
- 机器人行为大模型以力和操作对象为中心,坍缩训练空间,使穹彻具身大脑学会“如何决策”。它具有极佳的鲁棒性和安全性,能够适应不同的操作场景和任务需求。
- 天使轮融资:2024年3月,穹彻智能完成约5000万元天使轮融资;投资方:小苗朗程领投。
- Pre-A轮融资:2024年9月,穹彻智能完成数亿元Pre-A轮融资。本轮融资由Prosperity7 Ventures与广发信德联合领投,泽羽资本、创新工场、奇绩创坛、璞跃中国以及MFund魔量资本机构参投。
- 王潜(创始人兼CEO):全球最早在神经网络中引入注意力机制的学者之一,曾在美国顶级机器人实验室参与多项机器人学习项目。
- 王昊:(联合创始人兼CTO):北京大学计算物理博士,曾在IDEA研究院,担任封神榜大模型团队算法负责人,主导开发了包括文生图模型“太乙”、通用大模型“姜子牙”系列等。
2024年11月,自变量发布大参数规模的具身智能通用操作大模型:Great Wall系列(GW)的WALL-A模型,采用的技术路线为“统一具身智能大模型”,基于该大模型,双臂机器人可做到用极少的样本,完成各种物理环境变量、动作模式的泛化和迁移,并利用低成本硬件即可实现对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务,展现出相当程度的泛化性能。- 天使轮融资:2024年1月,自变量完成数千万元人民币的天使轮融资,投资方为联想之星。
- 天使+轮融资:2024年3月,自变量完成数千万元人民币的天使+轮融资,投资方为九合创投。
- Pre-A轮:2024年8月,自变量完成数Pre-A轮融资,融资金额未透露,投资方为德联资本、基石资本和水木清华校友基金。
- Pre-A+轮融资:2024年11月,自变量完成亿元级Pre-A+轮融资,投资方包括啟赋资本、南山战新投、九合创投。
- 韩峰涛(创始人兼CEO):曾任珞石机器人联合创始人&CTO。
- 高阳(联合创始人兼首席科学家):拥有十年的具身智能、机器视觉和机器学习研究经验。现任清华大学交叉信息学院助理教授及清华大学视觉与具身智能实验室主任,博士生导师。
- 郑灵茵(联合创始人):工业机器人出海先行者,曾组建和带领海外团队深耕全球市场,并迅速实现商业化成果转化。
千寻智能的核心壁垒之一: 构建高泛化、高通用机器人大脑。大脑使用视觉语言模型 ViLa(Vision-and-Language Models)+ 部件约束模型CoPa(Constraints of Parts)模型,作为机器人底层的多模态大模型。 - 种子轮+天使轮融资:2024年8月,千寻智能完成近2亿元人民币的种子轮+天使轮融资。本轮融资由弘晖基金领投,达晨创投、千乘资本、顺为资本和绿洲资本跟投。
- 天使+轮融资:2024年11月,千寻智能完成天使+轮融资,投资方为柏睿资本。