专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

具身智能行为学习需要什么数据？

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-09 00:04

正文

摘要：

数据是具身人工智能或具身智能（EI）发展的瓶颈。本文想阐明什么数据对于 EI 中的动作/行为训练是必不可少的。首先简要概述了人工智能在算法、计算和数据方面的发展（以及人工智能的分级）。然后重点介绍具身人工智能的动作/行为学习方法（包括世界模型和视觉-语言-动作模型）。对于数据收集，调查了机器人的类型和灵活性，然后比较了机器人模拟平台和机器人或人类的真实动作数据捕获平台。关于人类数据，研究以自我为人工智能或可穿戴人工智能。最终，体现了 EI 对数据集的要求。结论中讨论了泛化的技巧。

引言

人工智能 (AI) 的进步得益于三个领域的进步：算法、计算和数据。算法是计算机系统用于解决问题或完成任务的程序或公式。计算是指使用计算机系统进行计算或处理数据。数据是指训练和验证 AI 模型所需的信息。

1.1 算法

Transformer 。与卷积神经网络 (CNN) 不同，Transformer [22] 是一种编码器-解码器架构，旨在从自然语言中提取信息。基本构建块称为单元，由两个模块组成，即多头注意 (MHA) 和前馈网络 (FFN)。此外，位置信息被明确地添加到模型中，位置编码 (PE) ，以保留句子中单词顺序的信息。

Mamba 。Mamba [276, 320] 是一种选择性结构化状态空间模型，擅长长序列建模。Mamba 通过克服 CNN 的局部感知限制和 Transformer 的二次计算复杂性来应对长序列中的挑战。

基础模型。基础模型 [126, 210, 212] 在 NLP 中最为强大。在技术层面上，基础模型由迁移学习和扩展实现。迁移学习的理念是将从一个任务中学到的“知识”应用到另一个任务中。基础模型通常遵循这样的范式：模型在替代任务上进行预训练，然后通过微调适应下游感兴趣的任务。

LLM 。最近出现的大多数大规模语言模型 (LLM) [137, 243] 都属于或基于基础模型。最近具有十亿个参数的模型已被有效地用于零/少样本学习，无需大规模任务特定数据或模型参数更新即可实现令人印象深刻的性能。

LLM 是基于 Transformer 的语言模型类别，其特点是具有大量参数，通常数量达数千亿甚至更多。这些模型在海量文本数据集上进行训练，使它们能够理解自然语言并执行各种复杂任务，主要是通过文本生成和理解。

一些著名的 LLM 示例包括 OpenAI GPT-1/2/3/3.5/4 [23, 29, 43, 80, 132]、Meta LLaMA 1/2/3 [123, 169, 318]、Microsoft Phi-1/1.5/2/3[158, 183, 217, 273]、Mistral [194]、Google Gemini [223] 及其开放轻量级版本 Gemma [259] 等。

通过选择适当的提示 [170]，可以操纵模型行为，以便预训练的 LM 本身可用于预测所需的输出，有时甚至不需要任何额外的特定任务训练。

LLM 的涌现能力是将其与较小的语言模型区分开来的最重要特征之一。具体而言，上下文学习 (ICL) [114, 170]、指令跟随 [177] 和思维链推理 (CoT) [115, 148, 190, 275] 是 LLM 的三种典型涌现能力。

参数高效微调 (PEFT) 是一种关键技术，用于将预训练模型适配到专门的下游应用，其中一种典型的方法 LoRA [59] 利用低秩分解矩阵来减少可训练参数的数量。

由于 LLM 经过训练以捕获预训练语料库（包括高质量和低质量数据）的数据特征，因此它们很可能为人类生成有毒、有偏见甚至有害的内容。有必要将 LLM 与人类价值观 [80, 189] 保持一致，例如乐于助人、诚实和无害。

最近，OpenAI o1 模型 [339] 宣布用于强化学习 (RL) 的复杂推理，开启了新测试-时间规模化定律中的推理时间优化风格，类似的技术可以在 Math-Shepherd [222]、MiPS [239]、OmegaPRM [295]、REBASE [319]、规模化 LLM 测试-时间计算定律 [322]、Qwen2.5-Math [334]、OpenR [342] 和 Dualformer [347] 等中看到。

MoE 。混合专家 (MoE) [226, 300] 模型为每个传入示例选择不同的参数。结果是一个稀疏激活模型，具有多个参数，但计算成本恒定。

CoE 。 SambaNova [267, 286] 提出了专家组合 (CoE)，将大型模型的广泛性和准确性与小型模型的性能相结合，类似于 RouteLLM [305] 的路由网络。

VLM 。视觉语言模型 (VLM) 连接了自然语言处理 (NLP) 和计算机视觉 (CV) 的功能，打破了文本和视觉信息之间的界限，连接了多模态数据，例如 Dino 1/2 [56, 144]、CLIP [63]、DALL-E1/2/3 [64, 86, 203]、BLIP-1/2 [78, 119]、Flamingo [88]、SAM [141]、SEEM [143] 和 GPT-4v [192] 等。

MLLM 。受 LLM 潜力的启发，许多多模态 LLM (MLLM) [186] 已被提出，以将 LLM 扩展到多模态领域，即感知图像/视频输入，并与用户进行多轮对话，例如 OpenAI 的 GPT-4o [293] 和 Anthropic Claude 3.5 [362]。上述模型在大量图像/视频-文本对上进行了预训练，只能处理图像级任务，例如图像字幕和问答。

智体。基于 LLM 的智体 [178, 185, 229, 240] 可以通过 CoT/ToT 和问题分解等技术表现出与符号智体相当的推理和规划能力。它们还可以通过从反馈中学习并执行新操作，获得与环境交互的能力，类似于反应式智体。

具身人工智能。最近的研究为机器人和具身人工智能开发了更高效的强化学习智体 [209, 212, 220, 221, 238, 241, 249, 288, 310]。重点是增强智体在具身环境中的规划、推理和协作能力。一些方法将互补的优势结合到具身推理和任务规划的统一系统中。高级命令可以改进规划，而低级控制器将命令转化为动作。

1.2 计算

分布式训练。Colossal-AI 系统 [72] 引入了一个统一的接口，将模型训练的顺序代码扩展到分布式环境。它支持数据、流水线、张量和序列并行等并行训练方法，以及与零冗余优化器（ZERO）集成的异构训练方法。

模型并行是指将神经架构图划分或分片为子图，并将每个子图或模型分片分配给不同的设备。数据并行支持并行使用多个小批量数据。张量并行将张量沿特定维度拆分为 N 个块，并在多个 GPU 中拟合大型模型。流水线并行将传入的批次分解为小批量，并将模型的各层划分到多个 GPU 上。序列并行沿序列维度进行划分，使其成为训练长文本序列的有效方法。

高效的 Transformer 架构。为了提高 Transformer 架构的效率和可扩展性，对其进行了一些修改，例如多查询注意 (MQA)/分组查询注意 (GQA)、Switch Transformers、旋转位置嵌入 (RoPE)、Megatron-LM（一个 NVIDIA 开发的大型、功能强大的 Transformer）中的 FlashAttention1/2 [31]。

Perceiver IO [62] 在一组不太大的潜向量（例如 256 或 512）上使用自注意机制，并且仅使用输入与潜向量执行交叉注意。这使得自注意机制的时间和内存要求不依赖于输入的大小。

硬件效率。FlashAttention [90] 是一种 IO-觉察精确注意算法，它使用平铺来减少 GPU 高带宽内存 (HBM) 和 GPU 片上 SRAM 之间的内存读写次数。改进的 FlashAttention-2 [168]，可以通过更好的工作划分来解决这些问题。

PagedAttention 由 vLLM [184]（一种高吞吐量和内存高效的 LLM 推理和服务引擎）提出，是一种受到操作系统中经典虚拟内存和分页技术启发的注意算法。

内存优化。零冗余优化器 (ZeRO) [33] 通过将冗余模型状态划分为三个相应的阶段并优化通信来优化内存中的冗余模型状态，最终模型状态均匀分布在每个节点上。 ZeRO-Offload [51] 将两个状态的数据和计算卸载到 CPU，从而利用 CPU 节省 GPU 内存。 ZeRO-Infinity [52] 利用多个设备并行利用 CPU 和 NVMe 内存（便宜、慢但庞大），为当前的 GPU 集群聚合高效带宽。

自回归解码方法逐个生成 token。在每个解码步骤中，所有模型权重都从片外高带宽内存 (HBM) 加载到 GPU 芯片，导致内存访问成本高昂。KV 缓存的大小会随着输入长度的增加而增加，这可能会导致内存碎片和不规则的内存访问模式。 KV Cache 方法在多头自注意 (MHSA) 块 [208] 中存储和重用先前的 (K-V) 对。它包括两个步骤：1）预填充；LLM 计算并存储初始输入 token 的 KV 缓存，并生成第一个输出 token；2）解码：LLM 使用 KV 缓存逐个生成输出 token，然后使用新生成的 token K-V 对进行更新。

推理加速。Medusa [231] 为 LLM 添加了额外的“头”，以同时预测多个未来token。这些头每个都会为相应位置生成多个可能的单词。LLaMA.cpp [235] 是 LLaMA 架构的低级 C/C++ 实现，支持多个 BLAS 后端以实现快速处理。它使用 GGUF 量化方案，并具有 CPU 和 GPU 卸载功能。

1.3 数据

在 CV 和 NLP 中，使用从互联网上抓取的大量多样化数据集进行训练 [7, 251] 可以生成可推广到各种新任务的模型。

同样，在具身 AI（例如机器人操纵）中，最近的研究表明，更大、更多样化的机器人训练数据集可以突破策略泛化的极限，包括主动迁移到新目标、指令、场景和实现 [70, 179, 195]。

研究人员已经转向模拟环境 [8, 45, 154, 199, 343] 以减轻数据获取的难度并加速数据收集过程。然而，这种策略也有自己的挑战，其中最重要的是模拟与现实之间的差距。

对于数据集，有必要进行清理、过滤和管理，以保护隐私，符合人类偏好，保持多样性和质量，即使在特定的领域和职业中也是如此。

1.4 分级

AGI（通用人工智能）的“火花”已出现在最新一代的 LLM 中。Google DeepMind 根据能力的深度（性能）和广度（通用性）提出了 AGI 的分级 [207]。

人工智能智体能够根据其训练和输入数据进行理解、预测和响应。在这些能力得到开发和改进的同时，了解它们的局限性以及它们所训练的底层数据的影响非常重要。[285] 提出了基于效用和能力的人工智能智体分级，包括感知、工具、行动、推理、决策、记忆、反思、泛化、自学、个性和协作等。

2. 空间人工智能和具身人工智能

2.1 空间人工智能

“主动感知”于 20 世纪 80 年代提出 [1, 2]，是指生物体通过移动和改变视点主动收集有关其环境的信息的过程，而“被动视觉”则意味着仅仅接收视觉信息，而无需任何有意的移动或对感官输入的控制。

然而，当时主动感知的目标过于雄心勃勃，因为当时还没有一些革命性的技术，例如良好的视觉特征 (SIFT)、深度传感器 (Kinect)、深度学习模型和 LLM 带来的推理能力。

空间计算 [246] 是一项技术进步，它促进了设备与物理环境的无缝集成，从而在 VR 或 AR 中带来更自然、更直观的数字世界用户体验。

空间人工智能由李飞飞 [292] 提出，并成立了一家初创人工智能公司 World Labs [340]，旨在构建大型世界模型来感知、生成和与 3D 世界交互。

可见，空间人工智能并非用于空间计算，而是旨在主动感知，全面理解和建模环境，并由智体进行推理、规划和行动。但空间人工智能并不等同于具身人工智能。

2.2 具身人工智能

具身智能（EI）的概念[310]最早由图灵在1950年建立的具身图灵测试中提出，旨在判断智体是否能够表现出不仅限于解决虚拟环境（数字空间）中抽象问题的智能。

注：人工智能智体是EI的基础，存在于数字空间和物理世界中，并体现在包括机器人和其他设备在内的各种实体中，但也能应对物理世界的复杂性和不可预测性。

因此，发展EI被视为实现AGI的根本途径。 EI 涵盖了 CV、NLP、机器人等多项关键技术，其中最具代表性的是 [238, 241, 310] 具身感知（包括视觉语言导航 [249, 336]）、具身交互、具身智能（包括视觉-语言-动作模型 [288, 299]）以及虚拟到现实的迁移等。

3. 动作/行为学习方法

机器人操控是指机器人如何智能地与周围的目标互动，例如抓取目标并将其从一个地方搬运到另一个地方。灵巧的操控技能使机器人能够协助人类完成各种可能过于危险或难以完成的任务。

这要求机器人能够智能地规划和控制手臂的运动。目标操控是机器人完成多项任务的关键技能。然而，这也给机器人技术带来了挑战[30, 38, 109, 209, 212, 220, 221, 238, 244, 277, 278, 326]。注意：自动驾驶[210, 324]是EI中的一个特殊领域。

模仿学习（IL）[73]旨在模仿专家行为。一般来说，IL 包括三种主要方法：行为克隆 (BC)、逆向强化学习 (IRL) 和生成对抗模仿学习 (GAIL)。

行为克隆 (BC) 是一种用于机器人动作策略学习的监督学习公式。给定由一系列状态-动作对组成的专家演示数据，训练模型预测给定输入状态（例如图像）的正确动作向量。该框架已被证明非常有效，尤其是在提供足够数量的训练数据时。

一些 IL 方法可以列如下：Transporter Networks [48]、CLiPort [69]、BC-Z [73]、Behavior transformers (BeT) [93]、WHIRL [97]、Perceiver-Actor [101]、RoboCat [159]、Vi-PRoM [176] 和 VQ-BeT [255]。

然而，IL 方法也存在自身的挑战，特别是在高精度领域。为了应对这些挑战，加州大学伯克利分校和 ALOHA 远程操作平台 [145] 提出了 Action Chunking with Transformers (ACT)，它可以学习动作序列的生成模型。它们的修改版包括 RoboAgent/MT-ACT [182]、Bunny-VisionPro [309]、InterACT [313]、CrossFormer [328]、RUM [332] 和 Haptic-ACT [333]。

基于扩散的策略利用了扩散模型在计算机视觉领域的成功。其中，扩散策略 (DP) [127] 是最早使用扩散进行动作生成的策略之一。与常见的行为克隆策略相比，扩散策略在处理多模态动作分布和高维动作空间方面表现出优势。DP 的其他版本有cross diffusion [163]、3D 扩散策略 [256]、iDP3 [349]、ALOHA Unleashed [350] 和 Dex-Diffuser [361]。

强化学习 (RL) [25, 54, 357] 是一类方法，它使机器人能够通过优化奖励函数与环境交互来优化策略。这些交互通常在模拟环境中进行，有时会使用来自物理机器人硬件的数据进行增强，以实现从模拟到现实的转移。RL 算法分为：(1) 基于模型或无模型，(2) 值函数，以及 (3) 在策略或离策略。

与模仿学习不同，RL 不需要人类的示范，并且（理论上）有可能实现超人的表现。对于 RL 问题，使用从与环境的交互中收集的部署数据来最大化策略的预期回报。以奖励信号的形式从环境中接收反馈，引导机器人了解哪些动作会带来有利结果，哪些不会。

MT-OPT [54] 是一种可扩展且可推广的多任务深度 RL 方法，由用于数据收集的多机器人集体学习系统开发。还有一些使用 Transformer 架构的 RL 方法：decision Transformer [57]、trajectory Transformer [58] 和 OCDM [356]。

注意：世界模型是具身人工智能中用于预测的特殊类别，主要由 RL 和扩散模型实现，将在第 3.1 节中讨论。

机器人操控任务具有高度层次化的结构。一个复杂的任务可以分解成子任务，然后进一步分解成更小的子任务。即使是基本的技能，如抓取或推动，也可以进一步分解成多个面向目标的动作阶段。这种层次结构将主任务分解成更小、更易处理的问题。

机器人可以学习技能策略来执行最低级别的任务，然后以这些技能为动作基础来执行下一级任务。因此，机器人可以逐渐学习技能的分层策略，而由此产生的策略层次反映了任务的层次。

基于LLM的机器人显示出新的方向[209, 212, 220, 221, 238]：LLM为机器人提供了与自然语言交互的能力，使用户能够以直观、便捷的方式与机器人交流；LLM使机器人能够适应不同的任务和环境；LLM使机器人能够更好地与人类协作。因此，机器人可以通过与语言模型的交互来共同解决问题、制定计划和执行任务。

机器人学习方法的粗略分类如下：

• 作为任务规划和执行系统一部分的预训练语言模型：T-LM [76]、Socratic Model [84]、GATO [89]、LATTE [98]、ProgPrompt [102]、LLM-planner [111]、DEPS [121]、Reflexion (LLM + RL) [134]、Self-Refine [136]、Beam search [146]、Embodied-GPT (LLM + Transformer) [149]、SwiftSage [152]、ChatGPT for Robotics [161]、EUREKA [198]、RoboGPT [213]、LAP [265]、Socratic Planner [274]；

• 将语言模型应用于机器人控制，并通过动作对模型进行微调，获得可泛化的控制策略：SayCan [85]、Inner Monologue [96]、CaP [99]、Perceiver-Actor (LLM + Transformer) [101]、ReAct [106]、GA [142]、VOYAGER [150]、DoReMi [162]、SayPlan [166]、SUDD (LLM + Diffusion) [171]、PSL (LLM + RL) [280]、Octo [287]、ReAd [289]、Grounding-RL [296]；

• 预训练的视觉语言模型被集成用于机器人表征学习，作为任务规划和执行模块化系统的组件：VoxPoser [165]、Concept-Graphs [191]、VLP [197]、Robo-Flamingo [204]、ViLa [215]、SpatialVLM [232]、AutoRT [233]、RoboMamba [294]、RDT-1B (DiT) [345]、DiT-Block Policy [348]；

• 端到端学习视觉-语言-动作 (VLA) 模型是该领域最有前途的类别，在第 3.2 节中单独讨论。

3.1 世界模型

通用世界模型 [282, 306] 是实现通用人工智能 (AGI) 的重要方式，是从虚拟环境到决策系统的各种应用的基石。

在与现实世界非常相似的模拟环境中创建世界模型，可以帮助算法在迁移过程中更好地泛化。世界模型方法是构建一个端到端的模型，通过预测下一个状态、将视觉映射到动作，甚至任何映射关系，以生成式或预测式的方式做出决策。

这个世界模型和VLA模型最大的区别在于，VLA模型首先在大规模互联网数据集上进行训练，以实现高级突发能力，然后用现实世界的机器人数据进行微调。相比之下，世界模型是在物理世界数据上从头开始训练的，并随着数据量的增加逐渐发展出高级能力。

这样的世界模型仍然是低级的物理世界模型，在某种程度上类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景，例如自动驾驶（输入：视觉，输出：油门、刹车、方向盘）或物体分类（输入：视觉、指令、数字传感器，输出：抓取目标物体并放置在目标位置）。它们不太适合推广到非结构化的、复杂的特定任务。

学习世界模型在物理仿真领域有着广泛的应用前景。与传统的仿真方法相比，它具有显著的优势，比如能够推理信息不完全的交互、满足实时计算要求、随着时间的推移提高预测精度等。

这种世界模型的预测能力至关重要，使机器人能够发展出在人类世界中操纵所需的物理直觉。根据世界环境的学习流程，它们可以分为基于生成的方法、基于预测的方法和知识驱动的方法。

世界模型的架构旨在模拟人类大脑一致的思考和决策过程，集成以下关键组件[306]：感知模块、记忆模块、控制/动作模块，并以世界模型模块为核心。

世界模型能够模拟类似于人类的认知过程和决策。通过整合这些模块，世界模型可以实现对其环境的全面和预测性理解。

世界模型的类别大致分为以下几种：

a) RL：Dreamer 1/2/3 [37, 47, 116], DayDreamer [94], TD-MPC 1/2 [81, 201], FOWM [200], PWM [308];

b) 基于Transformer：TWM [130], STORM [196], WHALE [358];

c) 基于RL + Transformer：MWM [95];

d) 基于Diffusion 模型：UniPi [120],;

e) 基于LLM：DEKARD [118], Surfer [157]，Google Gemini [223], 3D-VLA [261];

f) Transformer + Diffusion模型：Sora [252];

g) LLM + RL： DynaLang [175]，GenRL [303]，

h) LLM + Diffusion模型： RoboDreamer [270]。

3.2 VLA 模型

视觉-语言-动作 (VLA) 模型 [288] 代表一类旨在处理多模态输入的模型，结合了视觉、语言和动作模态的信息。它们是处理视觉和语言多模态输入并输出机器人动作以完成具体任务的模型。它们是机器人策略指令遵循领域 EI 的基石。

VLA 模型是为了解决 EI 中的指令遵循任务而开发的。这些模型依赖于强大的视觉编码器、语言编码器和动作解码器。

EI 需要控制物理实体并与环境交互。机器人技术是 EI 最突出的领域。在语言调节的机器人任务中，策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力，这需要 VLA 的多模态能力。

预训练的视觉表征强调了视觉编码器的重要性，因为视觉观察在感知环境当前状态方面起着至关重要的作用。因此，它为整个模型的性能设置了上限。在 VLA 中，通用视觉模型使用机器人或人类数据进行预训练，以增强其在物体检测、可供性图提取甚至视觉语言对齐等任务中的能力，这些任务对于机器人任务至关重要。

与早期的深度 RL 方法相比，基于 VLA 的策略在复杂环境中表现出卓越的多样性、灵活性和泛化能力。这使得 VLA 不仅适用于工厂等受控环境，也适用于日常生活任务（家庭）。

为了提高各种机器人任务的性能，一些 VLA 优先获得高质量的预训练视觉表征；另一些 VLA 则专注于改进低级控制策略，这些策略擅长接收短期任务指令并生成可通过机器人运动规划执行的动作；此外，一些 VLA 专注于将长期任务分解为可由低级控制策略执行的子任务。

低级控制策略和高级任务规划器的组合可以看作是一种分层策略。高级任务规划器根据用户指令生成规划，然后由低级控制策略逐步执行。

大多数低级控制策略会预测末端执行器姿势的运动，同时抽象出使用逆运动学（IK）控制各个关节运动的运动规划模块。虽然这种抽象有助于更好地推广到不同的具体机器人，但它也限制了灵活性。

虽然基于 LLM 的控制策略可以大大增强命令遵循能力，因为 LLM 可以更好地解释用户意图，但人们担心它们的训练成本和部署速度。推理速度慢会严重影响动态环境中的性能，因为 LLM 推理期间可能会发生环境变化。

PaLM-E [124] 是一种视觉语言通才模型，它将图像和文本视为由潜向量表示的多模态输入。PaLM-E 的输出分为两部分：在处理文本生成任务时，模型直接生成最终输出。相反，当用于特定的规划和控制任务时，PaLM-E 会生成低级指令文本（例如用于机器人控制的指令）。

Robot Transformer 1 (RT-1) [113] 能够将高维输入和输出数据（包括图像和指令）编码为紧凑的 token，以便 Transformer 高效处理。它不是一个端到端模型。类似的工作有 RT-trajectory [206]、LEO [211]、SARA-RT [219]、GR-1[224]、ATM [227]、RT-H [254]、SRT [272] 和 RVT 1/2 [160, 297] 等。

之后提出的 Robotics Transformer 2 (RT-2) [172] 在网络规模数据集上进行训练，以实现对新任务的泛化能力和直接拥有语义感知。通过微调 VLM，它可以基于文本编码生成动作，即 VLA 模型。

在合作中，Open X-Embodiment 推广了“通用”机器人策略的理念，并主张可训练模型可以适应不同的机器人、任务和环境 [195]。Robot Transformer X (RT-X) 分为两个分支：RT-1-X 和 RT-2-X。RT-1-X 采用 RT-1 架构，使用 Open-X-embodiment 数据集进行训练，而 RT-2-X 采用 RT-2 的策略架构，并在同一数据集上进行训练。

目前已经提出了许多 VLA 模型，例如 QUAR-VLA [225]、3D VLA [261]、Bi-VLA [284]、OpenVLA [299]、LLARVA [302]、CoVLA [324]、TinyVLA [335]、GR-2 [341]、DP-VLA [352] 和 DeeR-VLA [354] 等。

4. 灵巧性和机器人类型

具身机器人一般可分为六类[310]。

第一种是固定基座机器人，如机械臂，单臂或双臂，常用于实验室自动化合成、教育、工业等领域，如KUKA iiwa [44]和Franka Emika Robot [91]。

第二种是轮式机器人，以高效的机动性著称，广泛应用于物流、仓储和安全检查，例如Kiva Systems [5]和Jackal Robot/Clearpath Robotics [103]。

第三种是履带式机器人，具有强大的越野能力和机动性，在农业、建筑和灾害响应方面显示出潜力，如iRobot Packbot [3]、CMU RoMan [39]和Polibot [140]。

第四种是四足机器人，以稳定性和适应性著称，非常适合复杂地形探测、救援任务和军事应用，例如 Boston Dynamic Bigdog [6]、MIT Cheetah [10]、ANYbotics 的 ANYmal C [174] 和 Unitree Go1 [236]。

第五种是人形机器人，其关键是灵巧的手，广泛应用于服务业、医疗保健和协作环境。一些例子是 Softbank Robotics 的 Pepper [13]、Atlas 人形机器人 [15]、Tesla 机器人 [67]、Figure 01/02 [139, 329] 和 Unitree H1 [268]。

值得注意的是：灵巧手是一种新兴的具身实体，用于执行复杂的灵巧操作任务，例如 [360, 361] Shadow Hand、Adroit hand 和 Allegro Hand。

最后一种是仿生机器人，它通过模拟自然生物的有效运动和功能，在复杂和动态的环境中执行任务。仿生机器人包括鱼形机器人、昆虫形机器人和软机器人等。

灵巧操作是先进机器人技术的基石，可应用于服务机器人和工业自动化等各个领域。

由于硬件和算法方面的挑战，机器人在操作任务中模仿人类灵巧性的能力仍未得到解决。

灵巧操作的高自由度对规划和控制提出了重大挑战。传统的最优控制方法通常需要简化接触，通常不适用于更复杂的任务。

最近，RL 已被探索在模拟中学习灵巧策略，对任务或环境的假设最少。学习到的策略可以解决复杂的任务，包括手中目标重新定位、双手操作和长距离操作。由于模拟和现实之间的差距，将学习到的策略部署到现实世界的机器人仍然具有挑战性。

基于模型的强化学习和控制方法在机器人灵巧多指手上取得了一些成功，例如旋转目标和手中操作等任务。同样，无模型强化学习方法表明 Sim2Real 可以实现非常好的技能，例如手中立方体旋转和魔方的面旋转。

然而，这两种学习方法都需要手工制作的奖励函数和系统识别，或特定于任务的训练程序。这以及较长的训练时间（通常需要数周）使得灵巧操作难以推广到一般任务。

为了解决以前基于学习的方法的样本效率低的问题，一些研究开始研究 IL。在这里，只需少量演示，就可以在几个小时内训练模拟策略。这种基于模仿的方法确实在真实的机器人手上取得了成功。

另一方面，IL 专注于直接从现实世界的演示数据中学习，这些数据可以通过传送或人类视频获得。

为灵巧机器人收集高质量的演示数据非常困难。它们要么需要昂贵的手套，要么需要大量标定，要么容易受到单目遮挡的影响。

与基于夹持器的操纵器相比，遥控灵巧臂系统通常需要昂贵且笨重的专用设备，例如 VR 耳机、可穿戴手套、手持控制器、触觉传感器或运动捕捉跟踪器。

遥控灵巧手具有高自由度和复杂的运动学。基于手套的系统可以跟踪操作员的手指运动，但价格昂贵且手的大小特定。最近的基于视觉的方法使用摄像头或 VR 耳机来实现灵巧臂遥控操作。

该领域的工作可分为以下几类：

• IL 方法：DMPF [12]、LPEI [16]、TeachNet [27]、DexPilot [34]、SOIL [40]、DexMV [66]、DIME [82]、IMDM [87]、T-Dex [135]、Bunny-VisionPro [309] 和 DexH2R [357]；

• RL 方法：DAPG [19]、LDIM [25]、PDDM [32]、DexVIP [77]、Visual dexterity [110]、VideoDex [112]、M-RRT/G-RRT [125] 和 DTIM [129]；

• Sim2Real 迁移法：DexTransfer [104]、Dextreme [108]、Touch Dexterity [133] 和 OmniH2O [298]。

5. 模拟

现实世界的 IL 方法需要大量数据，这些数据无法以低成本高效收集，否则对于现实世界的部署是不切实际的。现实世界的 RL 方法很有前景，但需要在现实世界中进行大量设置才能产生现实世界的奖励/成功和环境重置。

研究人员已经转向模拟环境来减轻数据采集的难度并加速数据收集过程。然而，这种策略也有自己的挑战，其中最重要的是模拟与现实之间的差距。当在模拟数据上训练的模型在现实世界的部署中表现不佳时，就会出现这种差距。造成这种差距的原因有很多，包括渲染质量的差异、物理模拟的不准确性以及以不切实际的目标属性和机器人运动规划器为特征的域转移。

模拟器对于 EI 至关重要，它提供了一种经济高效的实验方法，通过模拟潜在危险场景来确保安全，可扩展性以便在不同环境中进行测试，快速原型设计能力，为研究提供可控环境，生成用于训练和评估的数据，并为算法提供标准化基准。

传统的模拟器包括 Gazebo [4]、MORSE [8]、MuJoCo [9]、V-Rep/CoppeliaSim [11]、Pybullet [14]、AirSim [17]、MINOS [20]、Unity-ML Agents [26]、Furniture Bench [147]、Nvidia 的 ORBIT [117]、Aerial Gym [151]、Issac Sim [154] 和 Webots [153]。

扩散模型。在人工智能生成内容 (AIGC) 领域 [128, 181]，扩散模型 [75, 100, 131, 234] 取得了巨大成功，旨在通过迭代去噪过程从高斯噪声中生成图像，该过程由扩散过程和逆过程组成。扩散模型已扩展到其他模态，如视频、音频、文本、图形和 3-D 模型等。

NeRF 。作为多视图视觉重建的新分支，神经辐射场 (NeRF) [105, 155, 237, 279] 提供了 3D 信息的隐式表示。扩散模型与 NeRF 的结合在文本-到- 3D 合成中取得了显著成果。

GS 。高斯溅射 (GS) [230, 262, 281, 317, 351] 利用 3D 高斯基元进行显式场景表示并实现可微分渲染，其在实时渲染方面的表现优于 NeRF。

基于真实场景的模拟器有 Matterport3D [18]、AI2-THOR [21]、VirtualHome [24]、RoboTHOR [41]、SAPIEN [45]、ManipulaTHOR [55]、iGibson 1.0/2.0 [50, 65]、HM3D [68]、ThreeDWorld [74]、ProcTHOR [92]、Habitat 1/2/3 [36, 60, 199]、ManiSkill 1/2/3 [61, 122, 343]、RoboGen [205]、Humanoid Bench [264]、SIMPLER [283]、RoboCAS [311]、MetaUrban [314]、GRUtopia [316]、HoloDeck [330]、PhyScene [331]、GenSim 1/2 [193, 344]、BiGym [312] 和 SL-DSL [353]。

5.1 Sim2Real 迁移

具身智能中的 Sim-to-Real 适配/迁移是指将在模拟环境（数字空间）中学习的能力或行为迁移到现实世界（物理世界）的过程。该过程包括验证和改进在模拟中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中稳定可靠地运行。

为了实现模拟到现实的适应，具身世界模型、数据收集和训练方法以及具身控制算法是三个关键要素。

模拟到现实的迁移有五种范式 [46, 202, 298, 310]：1） Real2Sim2Real 使用在“数字孪生”模拟环境中训练的 RL 来增强现实场景中的 IL；2） TRANSIC 可实现实时人为干预，以纠正机器人在现实场景中的行为；3）域随机化在模拟过程中引入参数随机化； 4）系统识别建立现实环境中物理场景的精确数学模型；5） Lang4sim2real 使用图像的文本描述作为跨领域的统一信号。

6. 数据采集平台和数据集

机器人操作策略的一个关键特性是其泛化能力，即在新的光照条件下、在新的环境中或使用新的目标执行所需的操作任务。训练能够适应此类变化的策略是将机器人部署到日常环境中的关键一步。

训练此类可泛化策略的关键要素是用于训练的多样化数据：在计算机视觉 (CV) 和自然语言处理 (NLP) 中，使用从互联网上爬取的大型多样化数据集进行训练可以生成适用于各种新任务的模型。

同样，在机器人操作中，更大、更多样化的机器人训练数据集可以帮助突破策略泛化的极限，包括主动转移到新的目标、指令、场景和实现。创建大型、多样化、高质量的机器人操作数据集是制定更强大的机器人操作策略的重要基石。

与 CV 和 NLP 等领域相比，高质量数据的稀缺在许多方面阻碍了机器人技术的进步。为了应对这一挑战，研究人员提出了基于少样本学习和多任务学习等技术的算法。虽然这些方法在缓解数据稀缺问题方面显示出希望，但它们仍然依赖大量高质量数据来实现有效的任务泛化。

无论是从规模还是相关内容来看，互联网视频数据都有助于缓解机器人技术中的数据瓶颈问题。具体来说，其好处包括：（i）提高现有机器人数据的泛化能力，（ii）提高机器人数据分布的数据效率和性能，以及（iii）可能获得无法仅从机器人数据中提取的涌现能力。

从互联网视频中学习机器人动作仍然面临许多基本和实际挑战。首先，视频数据通常是高维的、嘈杂的、随机的，并且标记不准确。其次，视频缺乏对机器人技术至关重要的信息，包括动作标签、低级力和本体感受信息。此外，互联网视频和机器人领域之间可能会发生各种分布变化。

该领域的两个关键问题是：（i）如何从互联网视频中提取相关知识？（ii）如何将从视频中提取的知识应用于机器人技术？

与此同时，人们一直在寻求收集更大的现实世界机器人数据集。这方面的努力包括汇总人类远程操作和不同的实验室数据。还有研究自动化数据收集、提高可扩展性和远程操作的方法。

机器人演示收集最常见的方法是将机器人或末端执行器与远程操作员设备或运动同构设备配对。所使用的设备具有各种复杂性和外形大小：

1) 完整的机器人外骨骼，如 TABLIS [49]、WULE [138]、AirExo [188] 和 DexCap [263]；

2) 更简单的机器人数据收集工具，如 ALOHA [145]、GELLO [187]、移动 ALOHA [228]、ALOHA 2 [271] 和 AV-ALOHA [337] 等；

3) 非物理移动机器人，如 Dobb-E/stick v1 [214]、UMI [247]、UMI on Legs [315]、RUM/Stick v2 [332] 和 Fast-UMI [338]；

4) 使用视频游戏控制器（例如操纵杆），如 LIBERO [156]；

5）通过VR设备进行控制，如Holo-Dex [107]、AnyTeleop [164]、Open Teach [258]、HumanPlus [301]、Open-Television [307]、ACE [327]、ARCap [346]、BiDex [359]；

6）通过手机进行控制，如RoboTurk [28]。

通过遥控机器人系统收集的演示数据提供了精确的域内观察-动作对，从而能够通过监督学习实现有效的机器人策略学习。然而，对机器人系统和熟练的人类操作员的要求，极大地限制了数据收集的可访问性和可扩展性。

由于成本、时间、不一致性和准确性等各种因素，现实世界机器人数据的收集面临着巨大的挑战。

由于这些困难，公共机器人数据集相对稀缺。此外，在现实条件下评估机器人系统的性能又增加了一层复杂性，因为准确重现设置具有挑战性，而且通常需要人工监督。

解决现实环境中数据稀缺问题的另一种策略是利用人类数据。由于其灵活性和多样性，人类行为为机器人政策提供了大量指导。

然而，这种策略也有固有的缺点。捕捉人类的手/身体动作并将其传输给机器人本质上是困难的。此外，人类数据的不一致性也带来了问题，因为有些数据可能是第一人称自我中心的，而另一些数据则是从第三人称视角捕获的。此外，过滤人类数据以提取有用信息可能非常耗费人力 [248]。这些障碍凸显了将人类数据纳入机器人学习过程的复杂性。

一些数据集和基准可能不会直接用于机器人操纵和导航，但它们针对的是具身智能的其他相关能力，例如空间推理、物理理解和世界知识。这些能力对于任务规划者来说是无价的。

虽然像 Open X-embodiment [195] 这样的预训练数据集似乎具有统一的结构，但仍然存在重大问题。这些问题是由于缺乏如下这些因素造成：传感器多模态性、多机器人的统一格式、不同平台的兼容性、足够的数据、包括模拟和真实内容的数据集。

一些已知的机器人操作数据集包括 RoboNet [35]、BridgeData 1/2 [70, 179]、RH20T [173]、RoboSet [182]、Open-X [195]、Droid [269]、BRMData [291] 和 ARIO（统一数据格式）[325]。

或者，可以使用便携式系统收集人类演示，而无需物理机器人硬件。这些系统利用人类的灵活性和适应性直接操纵野外目标，从而促进创建大规模、多样化的人类演示数据集。然而，由于缺乏机器人硬件，目前尚不清楚收集的演示数据是否可用于训练机器人策略，而无再需要多步骤过程。

人类和机器人在具体实施上的差异需要数据重定向（retargeting）。此外，必须通过在与真实目标交互的实际机器人上重放动作来验证重定向的数据。最后，必须使用经过验证的数据训练机器人策略。

人类演示的成功在很大程度上取决于操作员的经验以及对机器人和人类之间几何形状和能力差异的认识。失败可能发生在重定向阶段，原因是机器人的关节和速度限制；失败可能发生在验证阶段，原因是意外碰撞；失败可能发生在策略训练阶段，原因是包含无效数据。

人类动作数据集包括 EPIC-Kitchens [42]、Ego4D [71]、HOI4D [79]、Assembly101 [83]、InternVid [167]、Ego-Exo4D [216]、Behavior-1k [260]、EgoExoLearn [266] 和 COM Kitchens [321]。

7. 可穿戴人工智能

将他人的活动映射到自我中心视角是人类从很小的时候就掌握的基本技能。

可穿戴人工智能或自我人工智能本质上是一种机器人应用。智能眼镜、神经腕带和 AR 耳机（Meta Project Aria [180]、VisionProTeleop [253]）等设备使用人工智能来感知用户的环境、理解空间背景并做出预测 [218、304、323]。

虽然从自我中心视角（基于可穿戴设备）收集了大量数据，但对于人工智能智体来说，直接从从不同视角捕获的演示视频中学习至关重要。

只有少数数据集以时间同步的方式记录了同一环境中的自我为中心和外部为中心视角的视频。在具身智能动作学习的泛化中，需要第三人称视角和第一人称视角之间的转换 [53、257]。

8. 数据集需求

基于以上各方面的分析，需求列表可以体现如下：

1）数据集旨在促进大规模具身学习任务的研究。

2）数据集支持对新目标、新环境、新任务甚至新具身实体的泛化。

3）数据集满足实体、时间、地点、视角、目标、技能多样性的需求。

4）数据集提供足够准确的真值：标定、同步、地图和定位以及注释。

5）数据集符合隐私和道德标准：去识别。

6）数据集包括真实和模拟数据：实现了real2sim和sim2real转换。

7）数据集包括Exo-Ego视图数据：支持Exo-Ego视图的灵活转换。

8）数据集制定统一的格式标准：可在各种数据格式之间转换。

9）数据集提供了评估基准：感知、认知（反思、推理、规划）和行动（操作）。**

9. 结论

本文概述了传统人工智能向 LLM、VLM、智体、空间智能和具身人工智能的演变，并分析了具身动作/行为的策略训练、数据捕获平台的具身灵活性、模拟平台和自我中心/可穿戴人工智能等。然后，体现了构建数据集的必要要求。

最后，讨论具身人工智能中的泛化技巧，这为具身数据捕获提供了见解。

9.1 泛化技巧

具身人工智能中的策略泛化方法可以如下。

1）RL 中的 Sim-2-Real 域迁移 [25, 46]；

2）数据增强和生成式人工智能模型（比如GAN和扩散策略）[127]；

3）数据规模和多样性（Open-X）[195]；

4）中间表示（包括估计 affordance）[355]；

5）大规模的模型架构（transformer）[113,172]；

6）预训练的大基础模型[299]；

7）训练后微调[200]；

8）推理-时间优化[334]。

参考文献

1. J Aloimonos, I Weiss, A Bandyopadhyay, “Active vision”, IJCV, vol. 1, Jan. 1987
2. R. Bajcsy, "Active Perception", IEEE Proceedings, Vol 76, No 8, Aug. 1988.
3. B. M. Yamauchi, “Packbot: a versatile platform for military robotics” (iRobot), Unmanned ground vehicle technology VI, vol. 5422. SPIE, Sept. 2004.
4. N. Koenig and A. Howard, “Design and use paradigms for Gazebo, an open-source multi-robot simulator,” IEEE/RSJ IRS, Oct., 2004.
5. J P. R. Wurman, R. D’Andrea, and M. Mountz, “Coordinating hundreds of cooperative, autonomous vehicles in warehouses” (Kiva Systems), AI magazine, 29 (1), July, 2008.
6. M. Raibert, K. Blankespoor, G. Nelson, and R. Playter, “Bigdog, the rough-terrain quadruped robot,” IFAC Proceedings Volumes, 41(2), July 2008.
7. Deng, W Dong, R Socher, and et al. “ImageNet: A large-scale hierarchical image database”, IEEE CVPR, Aug. 2009
8. G. Echeverria, N. Lassabe, A. Degroote and S. Lemaignan, "Modular open robots simulation engine: MORSE," IEEE ICRA, May, 2011.
9. E. Todorov, T. Erez, and Y. Tassa, “MuJoCo: A physics engine for model-based control,” IEEE/RSJ IRS, Oct. 2012
10. MIT Quadruped Robot Cheetah, MIT Cheetah Robot Runs Fast, and Efficiently , IEEE Spectrum, May 2013
11. E. Rohmer, S. P. Singh, and M. Freese, “V-Rep: A versatile and scalable robot simulation framework” (CoppeliaSim), IEEE/RSJ IRS, Nov. 2013
12. Y Bai and C K Liu. “Dexterous manipulation using both palm and fingers” (DMPF). IEEE ICRA, June, 2014.
13. F. Tanaka, K. Isshiki, F. Takahashi, and et al., “Pepper learns together with children: Development of an educational application”, IEEE Int. Conf. on Humanoid Robots, Nov. 2015.
14. E. Coumans and Y. Bai, “Pybullet, a python module for physics simulation for games, robotics and machine learning,” https://github.com/bulletphysics/bullet3 , 2016
15. S. Maniatopoulos, P. Schillinger, V. Pong, D. C. Conner, and H. Kress-Gazit, “Reactive high-level behavior synthesis for an Atlas humanoid robot,” IEEE ICRA, May 2016.
16. V. Kumar, A. Gupta, E. Todorov, and S. Levine, “Learning dexterous manipulation policies from experience and imitation” (LPEI), arXiv 1611.05095, 2016.
17. S. Shah, D. Dey, C. Lovett, and A. Kapoor, “AirSim: High-fidelity visual and physical simulation for autonomous vehicles,” arXiv 1705.05065, 2017
18. A. Chang, A. Dai, T. Funkhouser, and et al., “Matterport3D: Learning from RGB-D data in indoor environments”, arXiv1709.06158, 2017
19. A. Rajeswaran, V. Kumar, A. Gupta, and et al, “Learning complex dexterous manipulation with deep reinforcement learning and demonstrations” (DAPG), RSS’18, arXiv 1709.10087, 2017.
20. M Savva, A Chang, A Dosovitskiy, and et al., “MINOS: Multimodal Indoor Simulator for Navigation in Complex Environments”, arXiv 1712.03931, 2017
21. E. Kolve, R. Mottaghi, D. Gordon, and et al., “AI2-THOR: An interactive 3d environment for visual AI,” arXiv 1712.05474, 2017
22. A Vaswani, N Shazeer, N Parmar, et al. “Attention is All You Need” (Transformer). Advances in Neural Information Processing Systems, 2017.
23. A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving language understanding by generative pre-training” (GPT-1), https://openai.com/index/language-unsupervised/ , June 2018.
24. X. Puig, K. Ra, M. Boben, and et al., “Virtualhome: Simulating household activities via programs,” in IEEE/CVF CVPR, Jun 2018
25. OpenAI team, “Learning dexterous in-hand manipulation” (LDIM), arXiv 1808.00177, 2018.
26. A. Juliani, V-P Berges, E. Teng, and et al., “Unity: A general platform for intelligent agents” (Unity ML-Agents), arXiv 1809.02627, 2018.
27. S Li, X Ma, H Liang, and et al. “Vision-based teleoperation of shadow dexterous hand using end-to-end deep neural network” (TeachNet). ICRA, arXiv 1809.06268, 2018.
28. A Mandlekar, Y Zhu, A Garg, and et al. “RoboTurk: A crowdsourcing platform for robotic skill learning through imitation”. ICRL, arXiv 1811.02790, 2018.
29. A. Radford, J. Wu, R. Child, et al., “Language models are unsupervised multitask learners” (GPT-2), OpenAI blog, 2019.
30. Kroemer, O., Niekum, S., & Konidaris, G. “A review of robot learning for manipulation: Challenges, representations, and algorithms”. arXiv 1907.03146, 2019
31. M Shoeybi et al., “Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism”, arXiv 1909.08053, 2019
32. A. Nagabandi, K. Konoglie, S. Levine, and V. Kumar, “Deep dynamics models for learning dexterous manipulation” (PDDM), arXiv 1909.11652, 2019.
33. S Rajbhandari, J Rasley, O Ruwase, Y He, “ZeRO: Memory Optimizations Toward Training Trillion Parameter Models”, arXiv 1910.02054, 2019
34. A Handa, K Van Wyk, W Yang, and et al. “DexPilot: Vision-based teleoperation of dexterous robotic hand-arm system”. IEEE ICRA, arXiv 1910.03135, 2019.
35. S Dasari, F Ebert, S Tian, and et al. “RoboNet: Large-scale multi-robot learning”. CoRL’19, arXiv 1910.11215, 2019
36. M Savva, A Kadian, O Maksymets, and et al. “Habitat: A platform for embodied AI research”. IEEE ICCV, 2019.
37. Hafner D, Lillicrap T, Ba J, et al. “Dream to control: learning behaviors by latent imagination” (Dreamer v1). arXiv 1912.01603, 2019
38. Ravichandar, H., Polydoros, A. S., Chernova, S., & Billard, A. “Recent advances in robot learning from demonstration” (review). Annual Review of Control, Robotics, Auto. Systems, vol.3, 2020
39. C C. Kessens, J Fink, A Hurwitz, and et al., “Toward fieldable human-scale mobile manipulation using RoMan”, AI and Machine Learning for Multi-Domain Operations Applications II, Volume 11413, SPIE, April, 2020
40. I. Radosavovic, X. Wang, L. Pinto, and J. Malik, “State-only imitation learning for dexterous manipulation” (SOIL), IEEE/RSJ IROS’21. arXiv 2004.04650, 2020.
41. M Deitke, W Han, A Herrasti and et al. “RoboTHOR: An open simulation-to-real embodied AI platform”. CVPR’20, arXiv 2004.06799, 2020
42. Damen D, Doughty H, Farinella G M, et al. “The EPIC-Kitchens dataset: collection, challenges and baselines”. arXiv 2005.00343, IEEE T-PAMI, 43(11): 4125–4141, 2021
43. T. B. Brown, B. Mann, N. Ryder, et al., “Language models are few-shot learners” (GPT-3), arXiv 2005.14165, 2020
44. C. Li, S. Zhu, Z. Sun, and J. Rogers, “BAS optimized ELM for KUKA iiwa Robot Learning,” IEEE Transactions on Circuits and Systems II: Express Briefs, 68 (6), Oct. 2020.
45. F. Xiang, Y. Qin, K. Mo, and et al., “SAPIEN: A simulated part-based interactive environment,” arXiv 2003.08515, IEEE/CVF CVPR, Jun 2020.
46. Zhao, W., Queralta, J. P., and Westerlund, T. “Sim-to-real transfer in deep reinforcement learning for robotics: a survey”. arXiv 2009.13303, 2020.
47. Hafner D, Lillicrap T, Norouzi M, et al. “Mastering Atari with discrete world models” (Dreamer v2). arXiv 2010.02193, 2020
48. A. Zeng, P. Florence, J. Tompson, and et al., “Transporter networks: Rearranging the visual world for robotic manipulation”. CoRL’20, arXiv 2010.14406, 2020
49. Y Ishiguro, T Makabe, Y Nagamatsu, and et al., “Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit TABLIS”, IEEE IROS, Oct. 2020
50. B. Shen, F. Xia, C. Li, and et al., “iGibson 1.0: A simulation environment for interactive tasks in large realistic scenes,” arXiv 2012.02924, IEEE/RSJ IRS, 2021
51. J Ren, S Rajbhandari, R Y Aminabadi et al., “ZeRO-offload: Democratizing Billion-Scale Model Training”, arXiv 2101.06840, 2021
52. S Rajbhandari et al., “ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning”, arXiv 2104.07857, 2021
53. Y Li, T Nagarajan, B Xiong, and K Grauman. “Ego-Exo: Transferring visual representations from third-person to first-person videos”. arXiv 2104.07905, CVPR, 2021
54. D Kalashnikov, J Varley, Y Chebotar, and et al., “MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale”, arXiv 2104.08212, 2021
55. K. Ehsani, W. Han, A. Herrasti, and et al., “ManipulaTHOR: A framework for visual object manipulation,” arXiv 2104.11213, IEEE/CVF CVPR, 2021.
56. M Caron, H Touvron, I Misra, and et al. “Emerging Properties in Self-Supervised Vision Transformers” (Dino v1), arXiv 2104.14294, 2021
57. Chen L, Lu K, Rajeswaran A, et al. “Decision transformer: reinforcement learning via sequence modeling”, arXiv 2106.01345, 2021
58. Janner M, Li Q, Levine S. “Offline reinforcement learning as one big sequence modeling problem” (Trajectory Transformer), arXiv 2106.02039, 2021
59. E Hu et al., “LORA: Low-Rank Adaptation of Large Language Models”, arXiv 2106.09685, 2021
60. A Szot, A Clegg, E Undersander, and et al. “Habitat 2.0: Training Home Assistants to Rearrange their Habitat”, arXiv 2106.14405, 2021
61. Mu T Z, Ling Z, Xiang F B, et al. “Maniskill: generalizable manipulation skill benchmark with large-scale demonstrations”, arXiv 2107.14483, 2021
62. A. Jaegle, S. Borgeaud, J. B. Alayrac, and et al. “Perceiver IO: A general architecture for structured inputs & outputs”. arXiv 2107.14795, 2021.
63. A Radford, J W Kim, C Hallacy, et al. “Learning transferable visual models from natural language supervision” (CLIP). ICML 2021.
64. A Ramesh, M Pavlov, G Goh, et al., “Zero-shot text-to-image generation” (DALL-E). ICML. Virtual event, July 2021
65. C. Li, F. Xia, R. Mart ́ın-Mart ́ın, and et al., “iGibson 2.0: Object- centric simulation for robot learning of everyday household tasks,” arXiv 2108.03272, CRL’21, 2021
66. Y Qin, Y-H Wu, S Liu, and et-al. “DexMV: Imitation learning for dexterous manipulation from human videos”. ECCV’22, arXiv 2108.05877, 2021.
67. Tesla Bot (Optimus), Elon Musk Has No Idea What He’s Doing With Tesla Bot , IEEE Spectrum, Aug., 2021
68. S K Ramakrishnan, A Gokaslan, E Wijmans, and et al. “Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D environments for embodied AI”. arXiv 2109.08238, 2021
69. M. Shridhar, L. Manuelli, and D. Fox, “CliPort: What and where pathways for robotic manipulation,” arXiv 2109.12098, 2021
70. F. Ebert, Y. Yang, K. Schmeckpeper, and et al. “Bridge data: Boosting generalization of robotic skills with cross-domain datasets”. arXiv 2109.13396, 2021.
71. K. Grauman, A. Westbury, E. Byrne and et al. “Ego4D: Around the world in 3,000 hours of egocentric video”. arXiv 2110.07058, 2021
72. Z Bian et al., “Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training”, arXiv 2110.14883, 2021
73. E Jang, A Irpan, M Khansari, and et al. “BC-Z: Zero-shot task generalization with robotic imitation learning”. CoRL, 2021
74. C. Gan, J. Schwartz, S. Alter, and et al., “ThreeDWorld: A platform for interactive multi-modal physical simulation,” arXiv 2007.04954, NeuIPS’21, 2021
75. R Rombach, A Blattmann, D Lorenz, P Esser, and B Ommer. “High-resolution image synthesis with latent diffusion models” (Stable Diffusion). arXiv 2112.10752, 2021.
76. W. Huang, P. Abbeel, D. Pathak, and I. Mordatch, “Language models as zero-shot planners: Extracting actionable knowledge for embodied agents” (T-LM), arXiv 2201.07207, ICML, 2022.
77. P Mandikal and K Grauman. “DexVIP: Learning dexterous grasping with human hand pose priors from video”. CoRL, arXiv 2202.00164, 2022.
78. Li J, Li D, Xiong C, et al. “BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation”, arXiv 2201.12086, 2022
79. Y. Liu, Y. Liu, C. Jiang, and et al., “HOI4D: A 4D egocentric dataset for category-level human-object interaction”. CVPR’22, arXiv 2203.014577, 2022
80. L Ouyang, J Wu, X Jiang et al., “Training language models to follow instructions with human feedback” (GPT-3.5/InstructGPT), arXiv 2203.02155, 2022
81. N Hansen, X Wang, H Su, “Temporal Difference Learning for Model Predictive Control” (TD-MPC), arXiv 2203.04955, 2022
82. S P Arunachalam, S Silwal, B Evans, and L Pinto. “Dexterous imitation made easy: A learning-based framework for efficient dexterous manipulation” (DIME). arXiv 2203.13251, 2022.
83. F Sener, D Chatterjee, D Shelepov, and et al. “Assembly101: A large-scale multi-view video dataset for understanding procedural activities”. CVPR’22, arXiv 2203.14712, 2022
84. A. Zeng, M. Attarian, K. M. Choromanski, and et al., “Socratic models: Composing zero-shot multimodal reasoning with language”, arXiv 2204.00598, 2022
85. M Ahn, A Brohan, N Brown, and et al., “Do as I Can, Not as I Say: Grounding Language in Robotic Affordances” (SayCan), arXiv 2204.01691, 2022
86. A Ramesh, P Dhariwal, A Nichol, and et al. “Hierarchical text-conditional image generation with clip latents” (DALL-E2). arXiv 2204.06125，2022.
87. Y Qin, H Su, and X Wang. “From one hand to multiple hands: Imitation learning for dexterous manipulation from single-camera teleoperation” (IMDM). RA-L, 7(4), arXiv 2204.12490, 2022.
88. J-B Alayrac, J Donahue, P Luc, et al., “Flamingo: a visual language model for few-shot learning”. arXiv 2204.14198, 2022
89. Reed, S., Zolna, K., Parisotto, E., and et al. “A Generalist Agent” (GATO). arXiv 2205.06175, 2022
90. T Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness”, arXiv 2205.14135, 2022
91. S. Haddadin, S. Parusel, L. Johannsmeier, and et al., “The Franka Emika Robot: A reference platform for robotics research and education”, IEEE Robotics & Automation Magazine, 29 (2), June, 2022.
92. M. Deitke, E. VanderBilt, A. Herrasti, and et al., “ProcTHOR: Large-Scale Embodied AI Using Procedural Generation”, arXiv 2206.06994, NeurIPS’22, 2022
93. N M Shafiullah, Z J Cui, A Altanzaya, L Pinto, “Behavior Transformers: Cloning k modes with one stone”, arXiv 2206.11251, 2022
94. P Wu, A Escontrela, D Hafner, P Abbeel, and K Goldberg. “DayDreamer: World models for physical robot learning”. arXiv 2206.14176, 2022
95. Y. Seo, D. Hafner, H. Liu, and et al., “Masked world models for visual control” (MWM), arXiv 2206.14244, 2022
96. Huang W, Xia F, Xiao T, et al. “Inner monologue: embodied reasoning through planning with language models”. arXiv 2207.05608, 2022
97. S Bahl, A Gupta, D Pathak, “Human-to-Robot Imitation in the Wild” (WHIRL), arXiv 2207.09450, July, 2022
98. A Bucker, L Figueredo, S Haddadin, and et al., “LATTE: LAnguage Trajectory TransformEr”, arXiv 2208.02918, 2022
99. J Liang, W Huang, F Xia, and et al., “Code as Policies: Language Model Programs for Embodied Control” (CaP), arXiv 2209.07753, 2022
100. L Yang, Z Zhang, S Hong et al., “Diffusion Models: A Comprehensive Survey of Methods and Applications”, arXiv 2209.00796, 2022
101. M. Shridhar, L. Manuelli, and D. Fox, “Perceiver-Actor: A multi-task transformer for robotic manipulation,” arXiv 2209.05451, 2022
102. I. Singh, V. Blukis, A. Mousavian, and et al., “ProgPrompt: Generating situated robot task plans using large language models,” arXiv 2209.11302, IEEE ICRA’23, 2022.
103. B. Reily, P. Gao, F. Han, H. Wang, and H. Zhang, “Real-time recognition of team behaviors by multisensory graph-embedded robot learning” (Jackal Robot/Clearpath Robotics), IJRA, 41(8), Sep. 2022.
104. Z Q Chen, K Van Wyk, Y-W Chao, and et-al. “DexTransfer: Real world multi-fingered dexterous grasping with minimal human demonstrations”. arXiv 2209.14284, 2022.
105. K. Gao, Y. Gao, H. He, et al., “NeRF: Neural radiance field in 3d vision, a comprehensive review”. arXiv 2210.00379, 2022.
106. S Yao, J Zhao, D Yu, and et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, arXiv 2210.03629, 2022
107. S P Arunachalam, I Güzey, S Chintala, and Lerrel Pinto. “Holo-Dex: Teaching dexterity with immersive mixed reality”. IEEE ICRA’23, arXiv 2210.06463, 2022.
108. A Handa, A Allshire, V Makoviychuk, and et al. “Dextreme: Transfer of agile in-hand manipulation from simulation to reality”. arXiv 2210.13702, 2022.
109. Mohammed, Q., Kwek, C., Chua, C. and et al. “Review of learning-based robotic manipulation in cluttered environments”. Sensors, vol. 22 (20), 2022.
110. T Chen, M Tippur, S Wu, and et al. “Visual dexterity: In-hand dexterous manipulation from depth”. arXiv 2211.11744, 2022.
111. C H Song, J Wu, C Washington, and et al., “LLM-Planner: Few-shot grounded planning for embodied agents with large language models”. arXiv 2212.04088, 2022
112. K Shaw, S Bahl, and D Pathak. “VideoDex: Learning dexterity from internet videos”. arXiv 2212.04498, 2022.
113. A Brohan, N Brown, J Carbajal, and et al. “RT-1: Robotics transformer for real-world control at scale”. arXiv 2212.06817, 2022
114. P Liu, W Yuan, J Fu, and et al. “Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing”. ACM Computing Surveys, 55(9):1–35, 2023.
115. Q Dong, L Li, D Dai, and et al., “A survey for in-context learning”. arXiv 2301.00234, 2023.
116. Hafner D, Pasukonis J, Ba J, et al. “Mastering diverse domains through world models” (Dreamer v3), arXiv 2301.04104, 2023
117. M Mittal, C Yu, Q Yu, and et al. “ORBIT: A Unified Simulation Framework for Interactive Robot Learning Environments”, arXiv 2301.04195, 2017
118. K. Nottingham, P. Ammanabrolu, A. Suhr, and et al. “Do embodied agents dream of pixelated sheep: Embodied decision making using language guided world modelling” (DEKARD), arXiv 2301.12050, 2023
119. Li J, Li D, Savarese S, et al. “BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models”. arXiv 2301.12597, 2023
120. Y Du, M Yang, B Dai, and et al., “Learning Universal Policies via Text-Guided Video Generation” (UniPi), arXiv 2302.00111, 2023
121. Z. Wang, S. Cai, A. Liu, X. Ma, and Y. Liang, “Describe, explain, plan and select: Interactive planning with large language models enables open-world multi-task agents” (DEPS), arXiv 2302.01560, 2023.
122. J Gu, F Xiang, X Li, and et al., “ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills”, arXiv 2302.04659, 2023
123. H. Touvron, T. Lavril, G. Izacard, and et al. “LLaMA: Open and efficient foundation language models”. arXiv 2302.13971, 2023.
124. D Driess, F Xia, M. Sajjadi, et al., “PaLM-E: An Embodied Multimodal Language Model”, arXiv 2303.03378, 2023
125. G Khandate, S Shang, ET Chang, and et-al. “Sampling- based Exploration for Reinforcement Learning of Dexterous Manipulation” (M-RRT/G-RRT). RSS’23, arXiv 2303.03486, 2023.
126. S Yang, O Nachum, Y Du, and et al., “Foundation models for decision making: Problems, methods, and opportunities” (review). arXiv 2303.04129, 2023
127. C Chi, Z Xu, S Feng, and et al., “Diffusion Policy: Visuomotor Policy Learning via Action Diffusion”, arXiv 2303.04137, 2023
128. Y Cao, S Li, Y Liu, and et al. “A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT”, arXiv 2303.04226, 2023
129. J Pitz, L Ro ̈stel, L Sievers, and B Ba ̈uml. “Dextrous tactile in-hand manipulation using a modular reinforcement learning architecture” (DTIM). arXiv 2303.04705, 2023.
130. J Robine, M H”oftmann, T Uelwer, and S Harmeling. “Transformer-based world models are happy with 100k interactions” (TWM). ICLR’23, arXiv 2303.07109, 2023
131. C Zhang, C Zhang, M Zhang, I S Kweon, “Text-to-image Diffusion Models in Generative AI: A Survey”, arXiv 2303.07909, 2023
132. J. Achiam, S. Adler, S. Agarwal, and et al. “GPT-4 technical report”. arXiv 2303.08774, 2023
133. Z-H Yin, B Huang, Y Qin, Q Chen, and X Wang. “Rotating without seeing: Towards in-hand dexterity through touch” (Touch Dexterity). arXiv 2303.10880, 2023.
134. Shinn N, Cassano F, Berman E, et al. “Reflexion: language agents with verbal reinforcement learning”, arXiv 2303.11366, 2023
135. I Guzey, B Evans, S Chintala, and L Pinto. “Dexterity from touch: Self-supervised pre- training of tactile representations with robotic play” (T-Dex). arXiv 2303.12076, 2023.
136. Madaan A, Tandon N, Gupta P, et al. “Self-Refine: iterative refinement with self-feedback”, arXiv 2303.17651, 2023
137. W X Zhao, K Zhou, J Li, and et al., “A Survey of Large Language Models”, arXiv 2303.18233, Mar. 2023
138. L Zhao, T Yang, Y Yang, and P Yu. “A wearable upper limb exoskeleton for intuitive teleoperation of anthropomorphic manipulators” (WULE). MDPI Machines, 11(4):441, Mar. 2023.
139. Figure 01, fastcompany.com , Mar., 2023
140. A. Ugenti, R. Galati, G. Mantriota, and G. Reina, “Analysis of an all-terrain tracked robot with innovative suspension system” (Polibot), Mechanism and Machine Theory, vol. 182, April, 2023.
141. A Kirillov, E Mintun, N Ravi, and et al. “Segment Anything” (SAM). arXiv 2304.02643, 2023
142. J Park, J Brien, C Cai and et al., “Generative Agents: Interactive Simulacra of Human Behavior” (GA), arXiv 2304.03442, 2023
143. X Zou, J Yang, H Zhang, et al., “Segment everything everywhere all at once” (SEEM). arXiv 2304.06718, 2023
144. M Oquab, T Darcet, T Moutakanni, and et al. “Dinov2: Learning robust visual features without supervision”. arXiv 2304.07193, 2023
145. T Z. Zhao, V Kumar, S Levine, C Finn, “Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware” (ALOHA/ACT), arXiv 2304.13705, 2023
146. Y Xie, K Kawaguchi K, Y Zhao, and et al. “Self-evaluation guided beam search for reasoning”, arXiv 2305.00633, 2023
147. M Heo, Y Lee, D Lee, and J. Lim. “FurnitureBench: Reproducible real-world benchmark for long-horizon complex manipulation”. arXiv 2305.12821, 2023.
148. S Yao, D Yu, J Zhao, and et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, arXiv 2305.10601, 2023
149. Mu Y, Zhang Q, Hu M, et al. “EmbodiedGPT: vision-language pre-training via embodied chain of thought”. arXiv 2305.15021, 2023
150. G Wang, Y Xie, Y Jiang, and et al., “VOYAGER: An Open-Ended Embodied Agent with Large Language Models”, arXiv 2305.16291, 2023
151. M Kulkarni, T J. L. Forgaard, K Alexis, “Aerial Gym – Isaac Gym Simulator for Aerial Robots”, arXiv 2305.16510, 2023
152. B Y Lin B Y, Y Fu, K Yang, and et al. “SwiftSage: a generative agent with fast and slow thinking for complex interactive tasks”. arXiv 2305.17390, 2023
153. Cyberbotics, “Webots: open-source robot simulator”, GitHub - cyberbotics/webots: Webots Robot Simulator , 2023
154. NVIDIA, “Nvidia Isaac Sim: Robotics simulation and synthetic data,” https://developer.nvidia.com/isaac/sim , 2023
155. AKM Shahariar, Azad Rabby, C Zhang, “BeyondPixels: A Comprehensive Review of the Evolution of Neural Radiance Fields”, arXiv 2306.03000, 2023
156. B Liu, Y Zhu, C Gao, and et al. “LIBERO: Benchmarking knowledge transfer for lifelong robot learning”. arXiv 2306.03310, 2023
157. P Ren, K Zhang, H Zheng, and et al. “Surfer: Progressive reasoning with world models for robotic manipulation”, arXiv 2306.11335, 2023
158. Microsoft, “Textbooks Are All You Need” (phi-1), arXiv 2306.11644, 2023
159. Bousmalis K, Vezzani G, Rao D, et al. “RoboCat: a self-improving generalist agent for robotic manipulation”. arXiv 2306.11706, 2023
160. A Goyal, J Xu, Y Guo, and et al. “RVT: Robotic view transformer for 3D object manipulation”. arXiv 2306.14896, 2023
161. Vemprala S, Bonatti R, Bucker A, and et al. “ChatGPT for robotics: design principles and model abilities”, arXiv 2306.17582, 2023
162. Y Guo, Y-J Wang, L Zha, J Chen, “DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”, arXiv 2307.00329, 2023
163. X Li, V Belagali, J Shang and M S. Ryoo, “Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”, arXiv 2307.01849, 2023
164. Y Qin, W Yang, B Huang, and et al. “AnyTeleop: A general vision-based dexterous robot arm-hand teleoperation system”. arXiv 2307.04577, 2023.
165. Huang W, Wang C, Zhang R, et al. “VoxPoser: Composable 3D value maps for robotic manipulation with language models”. arXiv 2307.05973, 2023
166. K. Rana, J. Haviland, S. Garg, and et al. “SayPlan: Grounding large language models using 3d scene graphs for scalable task planning,” arXiv 2307.06135, ICRL’23, 2023.
167. Wang, Y., He, Y., Li, Y., and et al. “InternVid: A large-scale video-text dataset for multimodal understanding and generation”. arXiv 2307.06942, 2023.
168. T Dao, “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning”, arXiv 2307.08691, 2023
169. H. Touvron, L. Martin, K. Stone, and et al. “Llama 2: Open foundation and fine-tuned chat models”. arXiv 2307.09288, 2023.
170. J Gu, Z Han, S Chen, and et al. “A systematic survey of prompt engineering on vision-language foundation models”. arXiv 2307.12980, 2023
171. H Ha, P Florence, and S Song. “Scaling up and distilling down: Language-guided robot skill acquisition” (SUDD). CoRL’23, arXiv 2307.14535, 2023
172. A Brohan, N Brown, J Carbajal, and et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, arXiv 2307.15818, 2023
173. H Fang, H Fang, Z Tang, and et al. “RH20T: A robotic dataset for learning diverse skills in one-shot”. RSS 2023 Workshop on Learning for Task and Motion Planning, arXiv 2307.00595, July 2023
174. P. Arm, G. Waibel, J. Preisig, and et al., “Scientific exploration of challenging planetary analog environments with a team of legged robots” (ANYmal C), arXiv 2307.10079, Science robotics, 8 (80), July, 2023.
175. Lin J, Du Y, Watkins O, et al. “Learning to model the world with language” (Dynalang). arXiv 2308.01399, 2023
176. Jing, Y., Zhu, X., Liu, X., and et al. “Exploring visual pre-training for robot manipulation: Datasets, models and methods” (Vi-PRoM). arXiv 2308.03620, 2023.
177. S Zhang, L Dong, X Li and et al., “Instruction Tuning for Large Language Models: A Survey”, arXiv 2308.10792, 2023
178. L Wang, C Ma, X Feng, and et al. “A Survey on Large Language Model based Autonomous Agents”, arXiv 2308.11432, 2023
179. H. Walke, K. Black, A. Lee, and et al. “Bridgedata v2: A dataset for robot learning at scale”, arXiv 2308.12952, 2023.
180. K Somasundaram, J Dong, H Tang, and et al. “Project Aria: A new tool for egocentric multi-modal AI research”. arXiv 2308.13561, 2023.
181. L G Foo, H Rahmani, and J Liu, “AIGC for Various Data Modalities: A Survey”, arXiv 2308.14177, Aug. 2023
182. H Bharadhwaj, J Vakil, M Sharma, and et al., “RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking” (MT-ACT/RoboSet), arXiv 2309.01918, 2023
183. Microsoft, “Textbooks Are All You Need II: Phi-1.5 technical report”, arXiv 2309.05463, 2023
184. W Kwon et al., “Efficient Memory Management for Large Language Model Serving with PagedAttention” (vLLM), arXiv 2309.06180, 2023
185. Z Xi, W Chen, X Guo, and et al. “The Rise and Potential of Large Language Model Based Agents: A Survey”, arXiv 2309.07864, 2023
186. C Li, Z Gan, Z Yang, and et al. “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” (survey), arXiv 2309.10020, 2023
187. P Wu, Y Shentu, Z Yi, X Lin, and P Abbeel. “GELLO: A general, low-cost, and intuitive tele-operation framework for robot manipulators”. arXiv 2309.13037, 2023
188. H Fang, H Fang, Y Wang, and et al. “AirExo: Low-cost exoskeletons for learning whole-arm manipulation in the wild”. arXiv 2309.14975, 2023
189. T Shen, R Jin, Y Huang, and et al., “Large Language Model Alignment: A Survey”, arXiv 2309.15025, 2023
190. Z Chu, J Chen, Q Chen, and et al., “A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future”, arXiv 2309.15402, 2023

具身智能行为学习需要什么数据？

正文

请到「今天看啥」查看全文