专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
91运营网  ·  DeepSeek保姆级教程 ·  14 小时前  
运营研究社  ·  DeepSeek如何赋能职场应用(清华大学) ·  16 小时前  
91运营网  ·  91运营网vip会员早鸟票抢座ing!! ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

AutoRT:机器人智体大规模编排的具身基础模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-15 03:11

正文

24年1月来自谷歌DeepMind的论文“AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents”。

融合语言、视觉和最新动作的基础模型彻底改变了利用互联网规模数据推理有用任务的能力。然而,训练具身基础模型的关键挑战之一,是缺乏扎根于物理世界的数据。AutoRT 是一个利用现有基础模型在完全未见过的场景中以最少的人工监督扩大操作机器人部署的系统。AutoRT 利用视觉-语言模型 (VLM) 进行场景理解和落地,并进一步使用大语言模型 (LLM) 为一队机器人提出多样化和新指令。通过利用基础模型的知识来指导数据收集,AutoRT 能够有效地推理自主性的权衡和安全性,同时显着扩大机器人学习的数据收集。AutoRT 向多栋建筑中的 20 多个机器人提出指令,并通过遥控操作和自主机器人策略收集77,000 个真实机器人episodes。通过实验表明,AutoRT 收集的此类“野外”数据具有显著的多样性,并且 AutoRT 使用 LLM 允许按照符合人类偏好的数据收集机器人进行指令。


用于机器人操作的大规模真实机器人数据收集主要分为两类:自主数据收集和人工辅助演示。先前研究中的自主数据收集通常在受限的机器人实验室环境中进行,任务包括抓取(Pinto & Gupta,2015;Levine,2016;Kalashnikov,2018;Platt,2022)、推动(Yu,2016;Ebert,2018;Dasari,2020)或拾取和放置(Kalashnikov,2021;Bousmalis,2023)。重点是更多样化的环境,类似于 (Gupta 2018),并解决更广泛的任务。人类证明可以在不同的环境中进行数据收集(Sharma,2018;Mandlekar,2019;Jang,2021;Brohan,2022),并且遥控数据对于技能学习来说可能比自主收集的数据更加多样化和有价值,但在扩展到许多机器人时会受到人类可用性的限制。这促使人们采用混合遥控和自主策略的混合方法,例如 DAgger 风格的方法(Ross,2011;Kelly,2019;Hoque,2022)。AutoRT 就是这样一种混合方法,它根据人类监督员的提供,收集遥控和自主episodes,重点是收集新环境中新任务的数据。

自主机器人研究的核心目标之一,是实现独立且功能广泛的机器人智体:可以负责一些高级目标(“保持厨房清洁”)的系统,制定实现这些目标的规划,然后利用可用的技能和资源执行这些规划。虽然当前的机器人学习方法为获取个人机器人技能提供了有吸引力的解决方案,并且大语言模型 (LLM)、视觉-语言模型 (VLM) 和大型多模态模型提供了推理此类抽象任务的能力(Ahn,2022;Rana,2023),但真正开放式的任务仍然面临重大挑战。

在不同环境中执行无数任务需要一个扎实且通才的智体,它可以稳健地适应机器人训练之外的场景。然而,实现这些目标的瓶颈是需要大量的现实世界中的机器人经验——比在具有明确定义的环境的实验室环境中收集的机器人数据集要大得多。

本文研究如何设计智体来大规模地收集机器人经验。工作的核心是利用基础模型中包含的知识来驱动现实世界的机器人。特别关注的是多样化机器人数据采集:当机器人被放置在新环境中时,可能会有用户命令围绕某个主题(例如办公任务)收集数据,机器人应该确定可以执行哪些任务,触发哪些技能来尝试执行这些任务,以及何时应该依靠遥控的人类操作员。从控制分布在多个位置机器人群的角度来看待这一点,这些机器人的数量远远超过人类监管员的数量,因此需要以安全和适当的方式将专家演示与次优的自主策略相结合。用于大规模协调机器人智体的系统,AutoRT,可解决这个问题。

这项工作的目标是构建一个系统,该系统能够进行大规模的“野外”数据收集,以生成有关新环境中新技能的多样化真实世界机器人数据。

为此,假设可以使用由 N 个机器人组成的大型机器人队伍,这些机器人能够在多栋建筑物中导航并操纵物体。建筑物中住满了人,机器人和人都可以自由地在空间中移动。不对建筑物的布局或可供操纵的物体做任何假设。假设人类监督的带宽有限,这意味着机器人比人类监督员多——也就是说,不能指望一个人总是负责远程操作单个机器人。

具体说,目标是拥有一个可以处理机器人观察的任何状态 s ∈ S 的单一系统,并生成可由来自 k 种不同收集策略 π ∈ {π1,...,πk} 之一执行的任务 t。例如,πi 可以是手工设计或先验学习的自主策略 πauto,也可以是通过查询人类远程操作员执行的策略,即 πi/teleop。这种系统的目标:S → Π 是通过观察状态 s 来指导 N 个机器人的数据收集,并使用此信息来识别一组与特定策略 π 相对应的可行语言指定任务 t。此外,系统还需要考虑影响数据收集吞吐量和安全性的其他因素。这些包括自主和远程操作策略原语之间的权衡,生成多样化和新任务建议,同时考虑护栏和安全标准。

如图所示AutoRT 的系统图:每个机器人探索环境,对靠近物体的随机导航目标进行采样;VLM 描述场景及其中的物体,以将文本提供给 LLM,后者为机器人生成操作任务;机器人运行有效任务,对episode进行评分,然后重复该过程;这个过程中的任何部分都不需要提前了解环境布局或其所包含的物体,因此很容易在 20 多个处于新环境中的机器人队伍上运行。注:绿色部分是这项工作的贡献。


在高层次上,AutoRT 通过开放词汇目标检测器收集数据,首先了解和描述场景,然后 LLM 解析此描述并根据高级目标生成合理且安全的语言目标,最后使用 LLM 确定如何执行这些目标。

AutoRT 中使用的机器人平台是一个带有摄像头、机械臂和移动基座的移动操纵器。在此,仅考虑操作数据收集,因此导航仅用于收集各种操作设置 - 但是,该系统适用于其他机器人具身和收集模式。

每个机器人都是一个 7 自由度机械臂,连接到移动基座上,机器人头部安装有摄像头。机器人既能导航,也能操作。在收集时,机器人会被驱动到一个位置,这个位置可以是自然环境,例如办公区、厨房区、休息室,也可以是人工设置的房间,房间内在各种表面上的物体。为了安全起见,机器人会得到它们应该停留区域的边框,但事先不会得到任何关于物体位置的信息,它们必须自己探索该区域来寻找物体。

代码的结构形式,称之为策略图。策略图的每个节点 v ∈ V 都是一个子策略 π(a|s,data),其中 s 是机器人状态,a 是机器人动作,data 是在图中浏览时积累的信息。收集策略 {π1,...,πk} 本身就是策略图中的子策略,但策略图包括导航子策略,以及仅关注查询 LLM 的子策略。不移动机器人的子策略仅输出无操作的动作 a。

在每个时间步之后,检查为每个节点定义的转换条件 β。转换条件 β : S × Dat a → {0, 1}, V 是采用当前状态和累积数据的函数,它们决定子策略是否应将控制权交给下一个节点,如果是,指出交给哪个节点。这些条件类似于有限状态机中的条件。给定节点可以具有多个传入和传出的转换条件。当有多个传出条件时,一次只能有一个为真。

AutoRT 的一个特性是它仅根据机器人看到的生成任务,这可能会对任务生成产生偏差。例如,如果在办公室环境中运行,AutoRT 将主要看到办公用品并生成基于办公室的任务。为了更好地覆盖任务空间,收集了许多(超过 100 个)随机物体,例如塑料玩具和汽水罐,并每天将其中一些散布在环境中,每天交换物体。这为 AutoRT 的任务生成提供了更多种类的物体。


探索:导航到指定目标

AutoRT 的第一阶段,是探索空间并找到有趣的场景进行操作。为了绘制环境地图,使用(Chen 2023) 提出的自然语言地图方法,该方法使用 VLM 将目标检测编码为视觉-语言嵌入 φi,其对应位置 (xi,yi,zi) 由机器人的深度传感器和 SLAM 确定。因此,给定一个文本目标 q,如“海绵”,可以通过查询接近 q 的文本嵌入 φi 来引导机器人走向海绵。为了确定导航目标,采样与它们与之前看到的目标平均嵌入潜距离成比例的状态,对该地图进行采样。对于每个环境,此地图生成一次,然后复制到收集空间的所有机器人并从缓存中加载以节省未来episodes的时间。

机器人的宪法

机器人安全操作的关键,是将与人类相关的高级目标分解为机器人可以执行的任务。使用所谓的机器人宪法来为机器人指定这一点,这是 LLM 被要求遵循的规则列表,灵感来自宪法 AI (Bai et al., 2022) 等方法。这些规则分为三类:

  • • 受Asimov三定律 (Asimov, 1942) 启发的 基础规则 ,这些规则总体上管理机器人技术并管理与人类的互动。修改这些规律的确切文本如下:第一定律删除“通过不作为”部分,因为机器人的能动性是有限的,不想偏向不作为。第二定律和第三定律的顺序互换,因为机器人目前更需要保护,以免人类要求机器人执行可能危及机器人的任务,而不是相反。

  • 安全规则 ,根据部署中的当前能力描述哪些任务被视为不安全或不受欢迎。这些规则不鼓励收集策略与人类或动物互动。它们也不鼓励处理尖锐易碎的物体或电气设备。

  • 实施规则 描述机器人实施的限制,例如其最大有效载荷和单手操作的性质,阻止尝试使用较重物体或需要两只手臂的任务(例如“打开冰箱和拿起饮料”)。

第四类, 指导规则 ,为可选的高级人类命令提供输入:“如果给出,机器人应该遵循的人类命令:{指导}”。下面解释了机器人宪法在任务生成和affordance中的使用方式。

一旦机器人处于操控场景 si 前面,它就需要生成要尝试的操控任务列表。这通过两个步骤完成:







请到「今天看啥」查看全文