机器人中LLM应用综述

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-16 00:11

正文

23年11月的论文“Large Language Models for Robotics: A Survey”。

人类通过多模态反馈学习、概括和控制复杂操作任务的能力表明了一种独特的能力，称为灵巧智能（dexterity intelligence）。理解和评估这种智能是一项复杂的任务。随着大语言模型（LLM）的快速发展和广泛普及，它们在机器人领域的应用越来越受到关注。LLM拥有处理和生成自然语言的能力，促进与机器人的高效交互和协作。机器人领域的研究人员和工程师已经认识到LLM在增强机器人智能、人机交互和自主性方面的巨大潜力。因此，该综述旨在总结LLM在机器人领域的应用，深入探讨其对机器人控制、感知、决策和路径规划等关键领域的影响和贡献。

首先概述机器人学LLM的背景和发展，然后描述机器人学LLM的好处以及基于 LLM的机器人模型最新进展。然后，深入研究模型中使用的各种技术，包括感知、决策、控制和交互中使用的技术。最后，探讨了LLM在机器人领域的应用以及它们在不久的将来可能面临的一些潜在挑战。具身智能是智能科学的未来，而基于LLM的机器人技术是实现这一目标的有前途但具有挑战性的途径之一。

如图是文章中的缩写对照：

随着LLM的迅速发展和广泛普及，基于LLM的机器人模型应运而生。如图所示，LLM 就像机器人大脑一样，使其更加智能，成为智体和具身智能。

基于LLM的机器人的出现给该领域带来了大量的创新变化。机器人学LLM的必要性和意义可以概括为以下十点：

自然语言交互。LLM为机器人提供了进行自然语言交互的能力，允许用户以直观、便捷的方式与机器人进行交流。这种交互方式更符合人类的习惯和需求，提高了机器人的易用性和接受度。
任务执行。LLM通过理解和生成自然语言指令来帮助机器人执行各种任务。机器人可以根据用户语言命令进行导航、操纵目标并执行特定操作[126]。这为机器人在日常生活中的应用开辟了更广泛的可能性。
知识获取和推理。LLM拥有强大的信息检索和推理能力，可以帮助机器人获取和处理丰富的知识。机器人可以与语言模型进行交互，获取实时、准确的信息，从而提高其决策能力和智能。
灵活性和适应性。LLM的灵活性使机器人能够适应不同的任务和环境。通过与语言模型的交互，机器人可以根据具体情况进行灵活调整和自适应，更好地满足用户需求[52]。
学习和改进。LLM可以通过与用户的互动来持续学习和改进。通过分析和理解用户反馈，机器人可以提高其性能和熟练程度。这种学习和改进能力使得机器人能够逐渐适应用户的个性和偏好，提供更加个性化的服务。
多模态交互。LLM还支持多模态交互，使机器人能够同时处理不同形式的输入，例如语音、图像和文本。这种多模态能力[141]使机器人能够全面了解用户需求并提供更丰富的交互体验。
教育和娱乐。LLM为机器人技术的教育和娱乐目的提供了潜在的应用。机器人可以通过与语言模型的交互来提供教育内容、回答问题或参与游戏和娱乐活动。这对儿童教育、语言学习和娱乐业具有重大影响。
情感互动。LLM的应用增强了机器人的情感交互能力。通过产生情感响应输出，机器人可以与用户建立更密切、更有意义的关系。这种情感互动在护理机器人、情感支持和心理治疗等领域很有价值。
协作与合作。LLM使机器人能够更好地与人类协作。机器人可以通过与语言模型的交互来共同解决问题、制定计划和执行任务[126]。这种协作与配合能力对于工业自动化、团队协作、人机共存具有重要意义。
创新与探索。LLM的应用激发了机器人领域的创新与探索。通过与语言模型的交互，机器人可以拥有更高水平的智能和理解能力，为机器人技术的研发开辟新的途径。

如下表是最近基于LLM的机器人：

随着LLM的日益普及，人们开始怀疑这些模型是否可以用来辅助机器人执行各种日常任务。然而，让机器人从LLM中提取知识并与物理世界互动还存在挑战。LLM包含有关现实世界的有价值的语义信息，帮助机器人理解自然语言。然而，由于LLM缺乏对物理目标和环境的经验，为LLM提供能够交互并做出现实世界决策的物理形式是具有挑战性的。PaLM-SayCan [1]可以作为LLM的物理具身，利用LLM的语义能力来处理自然语言指令。PaLM-SayCan使机器人能够通过价值函数执行人类分配的任务。PaLM-SayCan 具有由视觉电机控制的预训练元动作，而 BC-Z [58] 和 MT-Opt [64] 分别用于学习语言条件的 BC 和 RL 策略。LLM 可以将接收的自然语言指令分解为更小的、可管理的任务。根据机器人当前的状态、能力和周围环境，灵活执行动作。为了确定某个操作的可行性，PaLM-SayCan 依赖于价值函数和可供性函数的对数估计。它将执行在当前环境和状态下最有可能成功的操作。例如，收到指令“你能帮我拿一个苹果吗？”。LLM可能会将其分解为几个任务：“走到厨房，打开冰箱，拿到苹果，并将其交付给请求者。”。

如图是PaLM- E的任务分解和多模态：

如表所示是最近机器人领域的Transformer工作：

RT-1 . 通过迁移大型且多样化的数据集，机器学习现在已针对下游任务，并通过零样本或者少样本学习微调，显着提高了在许多领域（例如计算机视觉、自然语言处理或语音识别）应用的性能。然而，机器人领域尚未表现出类似的泛化能力。通过开放式的任务无关训练来训练通用机器人模型，并结合可以吸收大型且多样化数据集的高性能架构，可能是一种有前途的方法。如果一个模型可以像海绵一样，吸收无处不在语言和感知的模式，它可能能够在特定的下游任务上表现更好。问题仍然是是否有可能在机器人域训练一个可以吸收其他域知识的模型。该模型能否展示新任务的零样本泛化能力？Robotics Transformer 1 (RT-1) [10] 的提出是为了解决上述问题。RT-1 能够将高维输入和输出数据（包括图像和指令）编码为可以由 Transformer 有效处理的紧凑tokens [131]。它表现出实时操作特性，使其适合需要快速处理和响应时间的应用。在实验评估中，RT-1 表现出很强的泛化能力。RT-1 的结构由 FiLM [96]、条件 EfficientNet [124]、TokenLearner [107] 和 Transformer [131] 组成。然而，RT-1 不是端到端模型。

RT-2 . 能否预训练一个可以无缝集成到低级机器人控制中的**视觉语言模型（VLM）**[22, 34]？从而增强VLM泛化能力？可以通过训练机器人的轨迹来表示为一系列tokens，有效地将自然语言指令映射到一系列机器人动作来实现这一点。为了创建一个可以直接将机器人观察结果映射到行动的端到端模型，DeepMind 采用了协作微调方法。Robot Transformer 2 (RT-2) [9] 将最先进的 VLM 与机器人轨迹数据上的网络规模视觉语言任务相结合，是一个利用 VLM 微调的模型。RT-2在网络规模的数据集上进行训练，以实现对新任务的泛化能力和语义感知的直接拥有。通过微调 VLM，它可以根据文本编码生成动作。具体来说，该模型是在包含与动作相关文本tokens的数据集上进行训练的。这种类型的模型可以称为**视觉语言动作模型（VLA）**[9]。RT-2 基于 Robotic Transformer 1 (RT-1) [10] 训练的策略构建，利用相同的数据集和扩展的 VLA 来显着增强模型对新任务的泛化能力。

RT-X 。在机器人学习中，通常为每个应用程序或环境训练单独的大模型。然而，这种方法可能具有局限性，因为它可能无法适应不同的机器人或环境。能否制定一个通用的机器人政策，可以应用于各种机器人和环境？随着大模型的进步，训练一个对特定任务表现出强大泛化能力的通用模型已经成为可能。受这些大型模型的启发，提出了 X-**具身训练（embodiment Training）**，其中涉及使用来自不同平台的机器人数据进行训练。这种方法使模型能够更好地适应机器人和环境的变化，从而提高性能和多功能性。Robotics Transformer X (RT-X) [29] 分为两个分支：RT-1-X 和 RT-2-X。RT-1-X采用RT-1架构并利用X-embodiment存储库进行训练，而RT-2-X利用RT-2的策略架构并在同一数据集上进行训练。实验表明 RT-1-X 和 RT-2-X 都表现出了增强的功能。同样，机器人可以像人类一样从获取各个领域的知识中受益。

机器人采用的技术如图所示：分成感知、决策、控制和交互。

感知讨论方面包括：

- 视觉-导航模型，比如RECON
- 视觉-语言模型，比如CLIP
- 视觉-和-语言导航模型
- 视觉-语言-动作模型

决策是机器人的一项基本能力，使它们能够根据当前状态和环境做出明智的决策并计划任务。作为机器人的核心，决策在承上启下、分析感知模块的输入以产生适当的动作方面起着至关重要的作用。

智能体的发展经历了各个阶段[142]：从依赖符号逻辑的符号智体[43, 91]；反应智体优先考虑环境相互作用并立即响应 [12, 11]；基于强化学习的智体经过训练可以处理复杂的任务[105]，但缺乏泛化性[41]；具有迁移学习[15, 158]和元学习[48, 102]的智体提高对任务的泛化能力。对于目前基于LLM的智体来说，LLM被用作智体的大脑[95, 122]。LLM 可以解释输入、计划输出行动、甚至具有决策能力并展示推理。

LLM作为机器人的大脑，是集成知识、记忆和推理能力的核心部件，使机器人能够智能地规划和执行任务。

知识。机器人学LLM的知识可以分为两类：需要通过学习获得的知识（即 预训练的数据集 ）和已经学习并存储在记忆中的知识[142]。

可用的预训练数据集有多种类型，学习的知识越广泛、越丰富，LLM 的泛化和自然语言理解能力就越强[106]。理论上，语言模型学习的越多，拥有的参数就越多，使其能够学习自然语言中的复杂知识并获得强大的能力[65]。研究表明，用于语言模型学习的更丰富的数据集可以为不同的问题提供正确的答案[106]。数据集可以分为不同类型，例如基本语义知识，它提供对语言含义的理解[133]；常识，包括日常事实，例如人们饥饿时吃饭或太阳从东方升起[108]；专业领域知识，可以帮助人类完成编程[146]和数学[24]等任务。

就像人类记忆一样，具身智能应该能够根据经验（即观察到的行为、想法等）制定策略并为新任务做出决策。当面对复杂的任务时，记忆机制可以帮助回顾过去的策略以获得更有效的解决方案[56, 121]。然而，记忆带来了一些挑战，例如记忆的序列长度以及随着记忆量的增长如何有效地存储和索引它们。随着机器人的记忆负担随着时间的推移而增加，它必须能够有效地管理和检索记忆，以避免灾难性的遗忘[68]。

推理。推理是人类认知的基本要素，在解决问题、决策和信息分析检查中发挥着至关重要的作用[135, 136]。推理在使LLM解决复杂任务方面发挥着至关重要的作用。推理能力使LLM能够将问题分解为更小的、可管理的步骤，并从当前状态和已知条件开始解决它们。关于LLM如何获得推理能力一直存在争论，一些人认为这是预训练或微调的结果[54]，而另一些人则认为它只有在一定规模下才会出现[137]。研究表明，思维链（CoT）[136]可以帮助LLM揭示他们的推理能力，一些研究表明推理能力可能源于训练数据的局部静态结构。

规划。人类在面对复杂的挑战时会制定规划。规划可以帮助人们组织思维、设定目标并决定在当前情况下应该做什么[45, 130]。这样的话，他们就能逐渐接近自己的目标。规划的核心是推理。智体可以使用推理能力将接收到的高级抽象指令解构为可执行的子任务，并为每个子任务制定合理的规划[26, 112]。例如，LM-Nav 使用 ChatGpt 来处理接收到的自然语言指令 [117]。PaLM-E直接实现端到端处理，将接收到的多模态输入转换为多模态句子进行LLM处理[34]。未来智体或许还可以通过多轮对话和自问自答，根据当前情况合理更新任务规划。许多研究提出了在规划过程中将执行任务划分为许多可执行的小任务的方法。例如，直接将执行任务分解为许多小任务并顺序执行[103, 145]。CoT 一次只处理一个子任务，可以自适应地完成任务，具有一定的灵活性[69, 138]。还有一些垂直规划方法将任务划分为树形图[49, 148]。

机器人中LLM应用综述

正文

请到「今天看啥」查看全文