24年3月来自斯坦福和伯克利分校的论文“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”。
创建大型、多样化、高质量的机器人操作数据集,是迈向更强大、更强大的机器人操作策略的重要基石。然而,创建这样的数据集具有挑战性:在不同环境中收集机器人操作数据会带来后勤和安全挑战,并且需要在硬件和人力方面进行大量投资。因此,即使是当今最通用的机器人操作策略,也大多是在少数场景和任务多样性有限的环境中收集的数据上进行训练的。这项工作引入
DROID(分布式机器人交互数据集)
,一个多样化的机器人操作数据集,具有 76k 条演示轨迹或 350 小时的交互数据,由北美、亚洲和欧洲的 50 个数据收集者在 12 个月内收集了 564 个场景和 86 个任务。用 DROID 进行训练可以提高策略的性能和泛化能力。开源完整的数据集、策略学习代码以及用于重现机器人硬件设置的详细指南。
所有DROID的资源分布在
https://droid-dataset.github.io
机器人操作策略的一个关键特性是其泛化能力,即在新的光照条件、新的环境或新的物体下执行所需操作任务的能力。训练能够适应此类变化的策略,是将机器人部署到日常环境中的关键一步,并可能更接近每个机器人专家的梦想:可以下载并在新机器人设置上测试能“正常工作”的机器人模型。训练此类可泛化策略的核心要素,是多样化的训练数据:在计算机视觉和自然语言处理中,使用从互联网上抓取的大型多样化数据集进行训练,可以产生适用于各种新任务的模型。同样,在机器人操作方面,最近的一些研究表明,更大、更多样化的机器人训练数据集能够突破策略泛化的极限,包括积极迁移到新的目标、指令、场景和实施方案 [1、2、13、30、32、33、39、50]。这表明,在迈向更强大、更稳健的机器人操控策略的道路上,一个重要的垫脚石(stepping stone)是创建大型、多样化、高质量的机器人操控数据集。
然而,创建这样的数据集具有挑战性:与视觉或语言数据不同,训练操控策略通常需要记录观察结果和动作的机器人操控数据,而这些数据无法轻易从互联网上抓取。在将机器人移出受控实验室环境时,在不同环境中收集机器人操控数据会带来运输和安全的挑战。此外,大规模收集数据需要大量硬件投资和人力监督,特别是对于收集演示数据。因此,即使是当今最通用的机器人操控策略,也大多是在场景和任务多样性有限的受控实验室环境中收集的数据上进行训练的。为了实现可泛化的机器人操控策略学习的下一个层次,机器人操控社区需要收集来自各种环境和任务的更多样化的数据集。
DROID(分布式机器人交互数据集),是一个开源机器人操作数据集,可提供非常高的场景、任务和目标的多样性和可变性(如表所示)。多样化和高质量的数据是训练可泛化策略的关键因素,而 DROID 旨在提供数量和质量:它包含 76k 个机器人演示轨迹,涵盖 86 个任务和 564 个场景。它是在 12 个月内通过一项大型跨机构努力收集的,共有 18 个机器人和 50 个数据收集器来自 13 个机构。所有数据均在共享的开源机器人平台上收集。
DROID 资源包括 CC-BY 4.0 许可下的完整数据集、交互式数据集可视化工具、用于在 DROID 上训练可泛化策略的代码、预训练的策略检查点以及用于重现机器人硬件设置和控制堆栈的详细指南。
构建 DROID 数据集的一个关键组成部分,是在全球 13 家机构进行分布式数据收集:这样能够在各种场景和任务中收集操纵数据。这种分布式设置中的一个关键挑战是机器人硬件:如何确保在如此多的设置、位置和时区中保持一致且可重复的机器人控制?为了简化分布式数据收集过程,设计了 DROID 机器人平台(如图所示),这是一个由所有机构共享的数据收集硬件平台,能够快速设置新的数据收集单元并在整个数据收集团队中推出更新。它旨在支持场景之间的轻松运输以及快速适应新场景和任务。
选择 Franka Emika Panda 7 DoF 机械臂作为设置的基础,因为它在机器人研究界被广泛采用,可靠、相对实惠,并且在大多数参与机构都有。
机械臂配备 Robotiq 2F-85 夹持器,安装在高度可调的带轮站立式办公桌上,因此它可以轻松地在场景和建筑物之间移动。
用三个同步立体摄像机流记录图像观察结果:
两个外部 Zed 2 摄像机,安装在可调节三脚架上,可快速适应新的场景布局,以及一个腕戴式 Zed-Mini 摄像机。
用 Polymetis 控制器 [28] 并以 15Hz 的控制频率记录机器人关节空间和末端执行器空间中的动作。
该设置由 Franka 机器人控制箱、托管 Polymetis 服务器的 NUC 和运行数据收集 GUI 的 Alienware 笔记本电脑完成。
所有设备都由一根电源线供电,以进一步简化位置变化。
对于远程操作,用 Meta Quest 2 耳机的控制器来控制 6D 空间中的手臂姿势以及连续空间中的夹持器。
该项目在北美、亚洲和欧洲的不同地点复制此设置 18 次。
提供了经过全面测试的指南来复制设置的硬件和软件。
该设置非常适合在各种场景和任务中进行数据收集和策略学习。
每次数据收集都从机器人移动到新场景开始。鼓励数据收集者选择包含多个有趣任务、大量交互目标和大量杂乱的场景。在新场景中设置机器人后,数据收集者选择第三人称摄像机的视图,这些视图可以捕捉场景中各种有趣的行为。然后,他们使用棋盘和 OpenCV 标定算法执行外部摄像机标定。接下来,数据收集者将当前场景的所有潜在任务输入到连接机器人的笔记本电脑上数据收集 GUI 中,方法是从任务选项列表中选择,也可以输入自由任务说明。在数据收集期间,GUI 将提示数据收集者为每个新场景从此列表中随机抽取一个任务。这样,就可以确保各种任务的覆盖率很高,并且收集不会偏向于更简单的任务或更近的物体。此外,GUI 会定期提示数据收集器执行随机采样的“场景增强”,例如轻推移动基座、移动和重新标定第三人称相机、更改房间照明以及在场景中添加或移除物品。对于每条轨迹,记录所有 RGB 相机的输出、来自机器人的相关低级状态信息、来自各种流行动作空间的等效机器人控制命令、数据收集器 ID 以及在 GUI 中输入的元数据。数据收集器还会标记收集的序列是否成功,将其记录为元数据的一部分。DROID 包含 76k 个成功的情节;数据收集中大约有 16k 条轨迹被标记为“不成功”,将其包含在数据集发布中,但不计入 DROID 的大小。数据收集器通常会在每个场景中收集最多 100 条轨迹或大约 20 分钟的交互数据,然后再转到新场景。
在后期处理过程中,通过
tasq.ai
数据标注平台以众包方式为每歌情节添加自然语言命令标签。为每个情节提供最多三条来自不同众包工作者的独立打标签指令,以确保标注的多样性。
如图是DROID 中的动词(技能)和目标分布。顶部:使用 GPT-4 去重后的动词分布。DROID 具有涵盖广泛行为的各种任务的长尾。可视化现有大型操作数据集的动词分布,发现只有 Bridge V2 [49] 具有可比的技能长尾。底部:机器人在 DROID 中与之交互的目标分布,按类别排序(放大后效果最佳)。
如图所示每种场景类型的场景数量。
与其他大型机器人操作数据集相比,DROID 的场景数量要多一个数量级,涵盖的场景类型范围要广得多。
如图所示DROID 中的第三人称摄像机视点(子采样)。
DROID 情节共涵盖 1417 个摄像机视点以及内在和外在立体摄像机标定。
颜色越亮,表示视点密度越高的区域。
如图所示相对于机器人底座的 3D 交互点可视化。
将夹持器在每个轨迹中首次闭合的 3D 位置可视化,因为闭合夹持器通常表示有意义的物体交互。
DROID 的交互覆盖机器人工作空间的很大一部分,因为机器人可以在收集数据之间自由移动,而不是被放置在重复的桌面场景之前。
如图所示用于策略评估的机器人设置。涵盖了广泛的任务和场景,从实验室到办公室和真实家庭,反映真实机器人研究中用例的多样性。根据任务的不同,收集了 50 到 150 个演示。从左到右用括号描述了每个任务,并附上了分布外(OOD)评估修改。