24年2月东京大学和Meta+谷歌的论文“Real-World Robot Applications of Foundation Models: A Review”。
基础模型如大语言模型(LLM)和视觉-语言模型(VLM)在现实世界机器人中的实际应用,主要侧重于现有机器人系统中特定组件的更换。该综述涵盖了基础模型中输入输出关系的观点,以及它们在机器人领域的感知、运动规划和控制中的作用。本文最后讨论了未来的挑战和对实际机器人应用的启示。
如图给出本研究的结构。在第2节中,概述基础模型的特点,并介绍常见的下游任务。在第3节中,对基础模型在机器人中的应用研究进行了分类。在第4节中,介绍之前创建机器人基础模型的工作,即所谓的机器人基础模型。在第5节中,概述用于机器人基础模型应用的机器人、任务和环境。
基础模型有三个主要特征:
上下文学习只需几个例子就可以完成新任务,而无需再训练或微调。随着数据、计算资源和模型大小的增加,规模化定律允许持续改进性能。同质化允许某些基础模型架构以统一的方式处理不同的模态。
根据语言、视觉、音频和3D表示等模态以及网络输入和输出对基础模型进行分类,其概览图如下所示:机器人利用基础模型的最关键标准是选择使用哪种模态,这里从语言、视觉、音频、3D表示和各种其他形式的角度讨论基础模型的类别及其可以执行的下游任务,在利用每种模态的背景下,从网络输入和输出的角度对基础模型进行了进一步的分类。
一般来说,机器人的行为由感知、规划和控制组成。
在研究中,感知分为两类:
低级和高级。
此外,将规划和控制分别称为高级规划和低级规划。
从用于学习这些组件的数据增强角度,将机器人基础模型的使用分为以下五类:
-
低级感知
-
高级感知
-
高级规划
-
低级规划
-
数据增强
这些类别的关系如图所示:对于基础模型,低级感知进行特征提取或场景识别,高级感知进行奖励生成或地图构建,高级规划进行任务规划或代码生成,低级规划进行足迹生成或命令生成,数据增强进行图像增强或指令增强。
在实践中,通过结合这五种方法来创建各种应用程序。
它们主要分为四种类型,如图所示:
-
(i) 进行低级感知,然后用高级规划来规划行为。
-
(ii)通过低级感知和高级感知提取奖励和运动约束,并将其用于强化学习和轨迹优化。
-
(iii)通过低级感知和高级感知生成地图、场景图等,并将其用作任务规划的基础。
-
(iv)使用数据增强,稳健地进行端到端学习,直接关联从低级感知和控制输入中提取的特征。
如下表所示,是利用基础模型进行低层次感知、高层次感知、高层规划、低层次规划和数据扩充的一些代表性研究成果。
除了专注于利用基础模型进行机器人感知和规划的研究外,还有一些工作旨在为机器人本身创建基础模型,这可能被称为机器人基础模型。
与LLM或VLM相比,开发机器人基础模型需要对机器人领域进行特殊考虑。
例如,为机器人收集不同的数据集比LLM和VLM更昂贵,LLM和VLM可以使用从互联网收集的数据轻松训练,而这一困难阻碍了机器人基础模型的扩展。
此外,机器人系统应该处理各种类型的数据,而不仅仅是图像或文本。
如下表所示,是一些为机器人训练的代表性基础模型的例子。这些模型可以分为三类:机器人的预训练视觉表示(PVR)、机器人的视觉-语言模型(VLM)以及端到端控制策略和动力学模型。对于输入和输出栏,Im、S、L、R和A分别表示图像、机器人状态、语言tokens、奖励和动作。对于架构栏,ViT表示视觉的视觉Transformer,T表示Transformer。特别是对于CNNs,将ResNet表示为CNNR。对于训练目标,CE表示离散tokens的分类交叉熵,BC表示动作空间上的行为克隆损失。
通过应用基础模型的研究,可以知道什么样的机器人、任务和环境适合基于基础模型的机器人。