24年11月来自Rutgers大学和百度美研的论文“RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model”。
大语言模型 (LLM) 的最新进展展示了其卓越的推理能力,使其在各个领域都具有影响力。然而,在机器人技术领域,由于其固有的文本输出,它们的使用主要限于操作规划任务。本文研究采用 LLM 的推理能力在机器人任务(特别是机器人抓取)中生成数值预测的潜力来解决这一限制。推理调优(Reasoning Tuning),在训练期间预测之前,将推理阶段集成进来,利用 LLM 的广泛先验知识和高级推理能力。这种方法使 LLM(尤其是具有多模态能力的 LLM)能够生成准确的数值输出,例如具有上下文感知和可通过对话进行调优的抓取姿势。此外,还提供了推理调优 VLM Grasp 数据集,该数据集经过精心挑选,以促进 LLM 适应机器人抓取。对抓取数据集和真实世界实验的广泛验证,强调多模态 LLM 对机器人数值预测任务的适应性。这不仅扩大了它们的适用性,而且还弥合了基于文本的规划和直接机器人控制之间的差距,从而最大限度地发挥 LLM 在机器人技术方面的潜力。
如图所示比较三种机器人抓取方法:1) 传统的基于 CNN 的算法产生固定姿态,在实际情况中缺乏适应性。2) 多模型 LLM 输出适应性抓取策略,但缺乏精确的数值预测。3) 本文算法结合两者的优点,通过合理的策略预测可适应的数值抓取。
机器人抓取
传统上,机器人抓取严重依赖于分析方法 [10]、[11]、[12]。这些方法主要侧重于理解目标的几何形状或分析接触力,以确定优化稳定性的抓取方法。然而,这些技术通常很难很好地推广到未见过的目标,并且在面对形状不规则的目标时可能会失败。
近年来,数据驱动的方法,特别是利用卷积神经网络 (CNN) 的方法,已经显示出有希望的结果 [13]、[14]、[15]、[16]、[8]、[7]、[17]。这些方法利用大量标记抓取示例的数据集来训练能够预测抓取姿势的模型。尽管这些模型取得了成功,但它们经常受到过拟合的影响。它们还缺乏推断目标用途、类别、材料和其他形状以外属性的能力。这些限制它们在现实场景中的有效性,特别是在抓取具有不寻常形状的目标或由于其材料特性或预期用途而需要特殊处理的目标时。
机器人的语言基础
1)
语言调节的机器人操作
:近年来,自然语言与机器人操作的结合引起了人们的极大兴趣。研究[18]、[19]、[20]、[21]探索了在杂乱场景中遵循语言指令的抓取检测。[22]根据目标属性的语言描述执行抓取预测。基于语言模型[23]、[24]的进步,最近的研究[25]、[26]、[27]、[28]、[29]、[30]已成功地将更灵活的语言指令应用到长视界操作任务中。然而,这些方法通常需要大量的演示才能掌握基于图像的策略。
2)
用于机器人操作的 LLM
:随着 LLM 的兴起,探索其用于机器人操作能力的研究也如雨后春笋般涌现。许多研究 [2]、[3]、[31] 已将 LLM 集成到闭环规划框架中,将语言条件下的长期任务分解为多个可管理的步骤。然而,弥合机器人语言指令与动作之间的差距仍然是一个挑战。此外,一些研究 [32]、[33]、[34] 已采用类似程序的规范来提示 LLM,使用预定义的动作函数库将规划和动作融合在一起。虽然这些方法很有趣,但它们往往面临来自基本动作函数的限制,并且通常依赖于额外的感知模型,从而导致系统效率和灵活性降低。最近的研究 [5] 通过利用多模态 LLM 在缩小规划-行动差距方面取得了进展。然而,该方法对数据和计算的要求很高,限制了它们在实际应用中的可行性。
本研究机器人抓取问题定义为给定 n 通道图像和相关的文本指令,找到垂直于平面的对映(antipodal)抓取。与 [35]、[8] 类似,抓取姿势可以参数化为 g = {x, y, θ , w},其中 (x, y) 表示表示抓取姿势中心点的 2D 坐标;θ 表示夹持器相对于水平轴的旋转角度;w 表示矩形抓取框的宽度,对应于夹持器的宽度。然而,在许多研究中,由于夹持器宽度限制的变化,通常认为将 w 纳入预测的抓取姿势 g 中是不必要的 [36]。
为此,研究主要集中于探究 LLM 在数值预测任务中的功效,假设 w 等于夹持器的最大宽度。本文将抓握姿势定义为:p={x, y, θ},其中(x,y)坐标分别通过图像宽度和图像高度进行归一化,旋转角度 θ 以弧度表示为(-π/2, π/2),如图所示。
机器人抓取的推理调优 (RT-Grasp),是一种新方法,旨在弥合 LLM 固有的以文本为中心的特性与机器人任务的精确数值要求之间的差距。它的主要目标是通过利用其广泛的封装先验知识来促进多模态 LLM 进行数值预测。
预先训练的多模型 LLM,例如 LLaVA [37],可以在给定图像和文本指令时以完全监督的方式直接进行微调。通过按顺序预测文本输出中的每个token来训练模型。所提出的推理调优引入结构化文本输出,其中包括推理阶段和随后的数值预测。创建用于机器人抓取的图像文本数据集,名为推理调优 VLM(视觉-语言模型)抓取数据集,用于微调多模态 LLM。此外,介绍一种使用 GPT-3.5 [38] 自动生成此类图像文本数据集的方法,该方法可应用于机器人抓取以外的任务数据集。
每个数据样本都包含一个 RGB 图像和一个文本指令,提示模型预测抓取姿势(参见下图)。此外,此数据集中的结构化目标文本包含输入图像中对象的推理阶段,然后是真值抓取姿势。推理阶段提供目标的一般描述,涵盖形状和位置等方面,并提出相应的抓取策略。例如,考虑杯子,它们的颜色、设计或材料可能有所不同,但针对它们的一般抓取策略是通用的,即以手柄或上边缘为目标。集成这样的推理阶段可指导模型建立对目标和相关抓取策略的广泛理解,从而促进后续步骤中更明智的数值预测。
现有的机器人抓取数据集通常仅包含图像和数值真值抓取姿势。相比之下,推理调优 VLM 数据集提供专门为多模态 LLM 集成到机器人抓取中而定制的图像-文本对。在该数据集中,图像来源于基准 Cornell Grasp 数据集 [13],而随附的结构化文本则包括推理阶段,随后以文本格式呈现真值抓取姿势。
对于结构化文本中的推理阶段,根据目标类别生成模板,因为同一类型目标的抓取策略通常相似。对于每个类别,创建一系列不同的推理模板。在每个数据样本的结构化文本中,根据目标类别随机选择一个推理模板,然后以文本形式附加真值抓取姿势(参见上图)。
为了确保这些推理模板的质量,采用多步方法。首先,提示 GPT-3.5 [38] 生成针对每个类别定制的模板集合。随后,指示它完善这些草稿,删除冗余或不相关的句子。最后,作为质量检查,手动验证生成的模板的正确性和相关性。这些推理模板通常描述目标的形状并提供通用的抓取策略。在下图中展示一些推理模板的示例,完整的集合和 GPT-3.5 提示可以在项目页面上找到。