专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
河北省发改委  ·  冰雪奇遇“冀”|萌宠大集结!快来吸一口“毛茸 ... ·  13 小时前  
河北省发改委  ·  冰雪奇遇“冀”|萌宠大集结!快来吸一口“毛茸 ... ·  13 小时前  
南京零距离  ·  宠物狗狂叫,救了主人一命! ·  昨天  
南京零距离  ·  宠物狗狂叫,救了主人一命! ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

EmbodiedGPT:通过具身的思维链进行视觉-语言预训练

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-09-18 00:06

正文

23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。

具身人工智能是机器人技术领域的一个重要前沿,能够规划和执行机器人的动作序列,在物理环境中完成长期任务。这项工作引入 EmbodiedGPT,一种用于具身人工智能的端到端多模态基础模型,为具身智体提供多模态理解和执行能力。为了实现这一目标,做出了以下努力:(i)制作了一个大规模具身规划数据集,称为 EgoCOT。该数据集由从 Ego4D 数据集中精心挑选的视频以及相应的高质量语言指令组成。具体来说,用“思维链”模式生成一系列子目标,实现有效的具身规划。(ii)引入一种有效的 EmbodiedGPT 训练方法,通过前缀-调优将 7B 大语言模型 (LLM) 适配到 EgoCOT 数据集,从而生成高质量的规划。(iii) 引入一种从 LLM 生成的规划查询中提取任务相关特征的范式,在高级规划和低级控制之间形成闭环。大量实验表明 EmbodiedGPT 在具身任务上是有效的,包括具身规划、具身控制、视觉字幕和视觉问答。值得注意的是,EmbodiedGPT 提取更有效的特征,显著提高具身控制任务的成功率。与使用 Ego4D 数据集微调的 BLIP-2 基线相比,在 Franka Kitchen 基准上的成功率提高 1.6 倍,在 Meta-World 基准上的成功率提高 1.3 倍。


使用可穿戴相机、拍摄的以自我为中心的视频,提供了日常活动的自然视角,并提出了一些具有挑战性的研究问题 [25, 26, 27]。多年来,已经创建了几个以自我为中心的视频数据集,包括 [28, 29, 30]。然而,收集以自我为中心视频的成本很高,而且以前的数据集往往规模较小且针对特定领域。最近,一个庞大的、以自我为中心的视频数据集 Ego4D [16] 已经发布,并已用于具身表征学习。该数据集包含 931 人从 9 个国家/地区的 74 个地点收集的 3,670 小时视频,视频配有旁白。对于具身 AI 任务,从大量多样化以自我为中心的人类视频中学习已成为一种有前途的方法,可以获取用于控制此类任务的普遍有用的视觉表征。例如,R3M [12] 通过结合时间对比学习和视频语言对齐,使用 Ego4D 人类视频数据集开发了一种稀疏而紧凑的视觉表征。VIP [31] 使用 Ego4D 数据集学习目标条件下机器人操作的通用奖励函数。

如图所示:EmbodiedGPT 的视频字幕、多轮问答、具身规划和低级控制功能。EmbodiedGPT 给出的规划具有高度可执行性,并结合特定任务的功能,从而显著提高具身控制任务的成功率,在 Franka Kitchen [14] 和 Meta-World [15] 环境中的表现均优于 R3M [12](视频-语言对比学习模型)和 BLIP- 2 [13](多模态基础模型)。


具身基础模型的目标是通过准确感知环境、识别相关目标、分析其空间关系以及制定详细的任务规划来模仿人类的感知和与环境的交互。 为了实现这一目标,EmbodiedGPT 采用预训练的视觉Transformer作为视觉编码器,采用预训练的 LLaMA [43] 模型作为语言模型。 如图所示,黑色箭头表示视觉-语言规划过程,红色箭头表示利用查询的语言规划在低级控制任务中进行更好的策略学习。


其中 embodied-former ,充当视觉领域和语言领域之间的桥梁,它首先通过基于注意机制的交互(涉及视觉tokens、文本查询和可学习的具身查询)从视觉模型的输出中提取紧凑的视觉特征,然后通过语言映射层将其映射到语言模态。这些嵌入被发送到冻结的 LLaMA [43] 语言模型,用于视觉字幕、视觉问答和具身规划。然后使用生成的规划通过embodied-former从视觉模型编码的一般视觉tokens中查询高度相关的特征。这些特征用于通过下游策略网络生成用于任务执行的低级控制命令。为了提高一系列具身任务的性能,引入一种新视频语言预训练范式,该范式利用认知思维链从自我中心视频输入中产生具身规划。此任务制定为标准 VQA(视觉问答)任务,使用“如何完成该任务 + 原始字幕”作为问题,使用具身规划作为答案。该框架丰富了具身规划和标准视觉问答任务的数据,鼓励embodied former捕获更适合具身控制任务的任务特定特征。

训练过程分为三个阶段,每个阶段都旨在逐步发展推理和规划能力。前两个阶段侧重于基本认知和反应技能的预训练,而第三阶段则涉及使用 EgoCOT 上的自我中心视频文本数据训练具身 AI 任务。在第一阶段,专注于图像文本对话对齐预训练,其中涉及使用三个数据集:COCO Caption [44]、来自 CC3M [45] 的 595,000 个经过精细过滤的图像-文本对,以及使用 BLIP-2 [17] 重新为 LAION-400M 制作字幕,获得 491,000 个经过过滤的图像-文本对。此阶段的主要目标是预训练embodied-former和语言投影,同时保持视觉和语言模型参数不变以节省计算资源。在第二阶段,目标是增强模型理解和生成更复杂句子的能力,并提高其推理能力。更新语言投影和前缀语言适配器,并利用“LLaVA_Instruct_150K”提供的“Complex_Reasoning_77k”和多轮对话数据集,可实现这一点 [46]。

Embodied-former ,记为 E(·),是视觉输入 xvis 和冻结语言模型之间的桥梁,充当向语言模型提供最相关视觉数据的信息颈。Embodied-former包含两个子模块:一个用于从图像输入中提取特征,记为 Evis,另一个用于从文本输入中提取特征,记为 Etxt。用 N 个可学习的具身查询嵌入 yquery 作为 E 的输入,通过交叉注意层与 xvis 交互,通过自注意层与 xtxt 交互。将输出查询表示记为 z。z 的维度明显小于视觉特征的维度。输出查询嵌入随后被转换为 z,其维度与语言模态中的 LLM 文本嵌入相同。此转换由表示为 M 的映射函数执行,该函数通过全连接 (FC) 层的线性投影完成。投影嵌入 z′ 充当“语言模型的软视觉提示”,将整个交互分解为视觉查询交互和查询文本交互。最终的具身规划,由语言模型以 z′ 和文本提示作为输入推断出来。对于旨在生成与环境交互动作的低级控制,具身规划 xplan 用作embodied-former的输入文本,查询与任务相关的实例级特征 zinstance = E(xvis, xplan, yquery)。随后,智体能够生成控制命令,例如伺服器的转动角度,表示为 a = g(zinstance, zglobal)。该函数结合了实例特定信息 zinstance 和全局上下文 zglobal。全局上下文是使用在 ImageNet [49] 上预训练的 ResNet50 模型 [48] 推断出来的,采用全局平均池化。这里,g(·) 表示策略网络,它是一个多层感知器 (MLP) [50] 映射函数。策略网络的输出由特定的可执行操作组成,例如笛卡尔坐标系中的位置和速度。







请到「今天看啥」查看全文