专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
中国铁建  ·  城轨动脉上的“新春温度” ·  17 小时前  
中国城市规划  ·  讣告 | 深切缅怀林秋华同志 ·  3 天前  
中国铁建  ·  穿山越岭筑通途 ·  昨天  
中国铁建  ·  面朝“江海” 春暖花开! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

波士顿动力最新!可泛化的扩散策略:能有效操控不同几何形状、尺寸和物理特性的物体

计算机视觉工坊  · 公众号  ·  · 2024-12-16 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:具身智能之心

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


写在前面&出发点

丰富接触的双手操控涉及双臂的精确协调,通过策略性地选择接触点和运动来改变物体的状态。由于这些任务本身的复杂性,获取足够的演示数据并训练出能泛化到未见场景的策略仍然是一个尚未解决的主要挑战。基于近期在接触式规划方面的进展,我们引入了可泛化的规划引导扩散策略学习(GLIDE)方法,该方法利用基于模型的运动规划器在高保真物理模拟中生成演示数据,从而有效地学习解决丰富接触的双手操控任务。通过在随机环境中进行高效规划,方法能够为涉及不同物体和变换的任务生成大规模、高质量的合成运动轨迹。然后使用这些演示数据通过行为克隆训练了一个任务条件扩散策略。为了解决模拟到现实的差距问题,在特征提取、任务表示、动作预测和数据增强方面提出了一套必要的设计选项,这些选项能够实现对平滑动作序列的鲁棒预测以及对未见场景的泛化。通过模拟和现实世界中的实验,我们证明了我们的方法能够使一个双手机器人系统有效地操控不同几何形状、尺寸和物理特性的物体。

内容出自国内首个具身智能全栈学习社区: 具身智能之心知识星球 这里包含所有你想要的。

一些介绍

从仓库物流到家庭服务,一系列关键的机器人应用场景都依赖于物体与操纵器之间的多接触交互操作。例如,如图1所示,任务是要控制两个机械臂,将不同的物体操纵到指定的目标姿态。这些物体通常体积庞大且重量较重,使得末端执行器无法直接抓取。为了重新排列和调整物体的方向,两个机械臂必须通过多个连接点的接触来稳固地握住物体,并在可能需要经过多个接触阶段的长距离移动中重新定位物体,以达到目标。由于这种固有的复杂性,解决多样化和复杂物体的丰富接触式双手操控仍然是一个悬而未决的挑战。

为了应对这一挑战,利用平滑接触模型的基于模型的规划方法最近的进展已经开始显示出其有效性。然而,这类运动规划器需要完全了解物体的状态和环境几何形状,从而限制了它们在新环境中操作的能力,尤其是在物体表现出多样化几何形状和物理特性的环境中。此外,它们的计算开销也阻碍了在线生成轨迹的能力,这可能会成为一个关键的限制,特别是在需要实时适应的动态环境中。这些局限性凸显了需要开发能够有效且稳健地在各种物体上执行丰富接触式双手操控的方法。

另外,越来越多的工作致力于通过从轨迹数据中学习来掌握可泛化的丰富接触式操控技能。尽管取得了颇有前景的进展,但关键挑战仍然存在,特别是对于具有复杂实体的双手操控而言。首先,为复杂的视觉运动技能训练出稳健且可泛化的策略通常需要大规模、高质量的轨迹数据,如专家演示。然而,使用传统方法(如现实世界的远程操作)来收集如丰富接触式双手操控等复杂系统和任务的演示数据特别困难且成本高昂。其次,对于使用模拟数据学习策略的方法而言,感知和动力学方面的现实差距对有效策略部署和泛化构成了显著挑战。随着任务复杂性的增加,这些挑战也变得更加显著。

我们提出了一种方法,通过解决上述挑战来学习可泛化的丰富接触式双手操控技能,特别是针对庞大且笨重物体的重新定位。方法名为“可泛化的规划引导扩散策略学习”(GLIDE),建立在最新的扩散策略和基于模型的运动规划研究成果之上,以增强数据和模型的可扩展性。我们使用了一种接触隐式轨迹优化求解器,它通过局部机器人-物体接触动力学的平滑线性近似来提高效率,从而在物理模拟中生成了大量高质量的丰富接触式双手操控演示数据。与先前计算成本高昂的长距离运动规划方法相比,该规划器显著提高了数据生成效率,同时对轨迹质量的影响微乎其微。此外,我们还实施了该规划器,使其贪婪地接近目标物体状态,进一步加快了合成数据的生成速度。为了学习丰富接触式和双手操控的可泛化视觉运动技能,基于最新的扩散策略研究成果(这些成果有效地捕捉了多模态动作分布)进行了构建。与为每个任务学习一组特定参数的方法不同,这里设计了一个任务条件扩散策略网络,该网络可以控制机器人将物体操纵到用户指定的任意目标姿态。为了缩小模拟系统与现实系统之间的现实差距,在特征提取、任务表示、动作预测和数据增强方面做出了一系列必要的设计选择,这些选择显著提高了我们的策略在模拟到现实迁移中的性能。我们在一系列涉及分布内和分布外(OOD)物体的模拟和真实世界的丰富接触式双手操控任务中评估了GLIDE。通过详细分析,我们证明了我们的方法能够在未见过的场景中稳健地完成丰富接触式双手操控。

相关工作回顾

丰富接触式和双手操控已被广泛研究,但主要面临非光滑接触动力学和非凸成本景观导航等挑战。以往在规划方面的工作将丰富接触式操控表述为混合整数规划(MIP),使用整数变量来表示接触模式。虽然基于MIP的方法具有最优性,但随着接触对和任务时间范围的增加,接触模式呈指数级增长,导致它们对于如全臂双手操控等任务的可扩展性较差。最近的规划方法通过解析平滑以牺牲最优性为代价来提高效率,但规划器依赖于对物体状态和几何形状的完全了解,这限制了它们对现实世界各种物体的泛化能力。为了解决泛化问题,另一项先前的工作通过行为克隆和强化学习来应对丰富接触式操控。虽然它们已显示出有前景的结果,但由于丰富接触式双手操控固有的复杂性,很少有人关注其可泛化性。最近的一项工作在这一领域取得了进展,但它仅使用两个具有单点接触的末端执行器来执行操控,而不是完整的双手臂,并且缺乏视觉反馈。这限制了其操控庞大或细长物体的能力。我们提出了一种方法,该方法展示了在不同尺寸、几何形状和物理属性的物体上进行可泛化的丰富接触式双手操控,利用了视觉反馈,并且没有假设需要了解特权信息(例如物体形状)。

视觉运动策略学习在操控中的应用 。机器学习方法使机器人能够学习执行抓取、推动、旋转和插入等多种任务的视觉运动策略。与这些基础技能相比,丰富接触式的双手操控由于其复杂的动力学和多模态行为分布,给策略学习带来了重大挑战。随着深度生成模型的最新进展,扩散策略作为一类能够捕捉复杂数据分布的新型策略网络被引入。虽然这些方法已显示出潜力,但它们通常仅应用于具有固定目标的特定任务。我们为基于点云的丰富接触式双手操控设计了一个扩散策略网络。为了促进泛化,这里提出了一种规划引导的学习方法,该方法通过模拟中生成的不同物体上的专家演示来训练策略。

规划引导的数据合成 。虽然传统的运动规划系统需要场景和物体的完整知识,这限制了它们在现实世界中的部署,但它们在为基于学习的方法生成合成数据方面极具价值。先前的模仿学习工作已利用规划数据来训练有效且可泛化的碰撞避免、操控、运动和自动驾驶策略。基于模型的规划也已被广泛用于提高强化学习的样本效率和性能。然而,由于复杂的接触动力学和规划效率带来的挑战,使用规划来可扩展地生成高质量丰富接触式双手操控演示的工作仍研究不足。我们基于轨迹优化和运动规划领域的最新进展,有效且可扩展地生成了丰富接触式双手操控的演示。

方法说明

GLIDE主要围绕两个核心点展开:一是为丰富接触式的双手操控任务生成多样且高质量的训练数据;二是学习能够泛化到未见环境和任务规范的视觉运动策略。我们首先将描述学习可泛化的丰富接触式双手操控的问题表述。接下来,将提出一个使用高效丰富接触式规划器的数据合成流程。最后设计一种条件扩散策略,该策略能够根据观察到的点云和任务规范生成动作序列。

问题表述

我们考虑的是控制一个双手机器人系统来改变物体的姿态的问题。这些物体可能体积庞大且重量较重,因此无法被末端执行器直接抓取。为了完成这项任务,两个机器人手臂需要策略性地接近物体以进行接触,然后将物体重新定位到目标姿态。对于复杂物体和具有挑战性的目标姿态,由于机器人配置空间的限制,这个过程可能需要多次接近和操作。为了使系统能够泛化到未见过的物体,假设物体的形状和初始姿态是未知的。相反,机器人仅接收环境的视觉观测信息。

形式上,我们定义了包含环境状态空间S、观测空间O、动作空间A、任务空间C和时间范围H的问题。在每个情节中,机器人从初始环境状态 开始,并根据任务规范c ∈ C被指令改变环境。在每个时间步t = 1, ..., H,机器人接收观测 并执行动作 。为了解决这个问题,我们旨在学习一个具有可训练参数集θ的单一策略 。由于双手操控任务中的动力学和控制复杂性,直接在现实世界中收集大量且高质量的数据是困难的。因此,我们旨在生成合成演示数据D来训练策略π。由于不收集和使用任何真实世界的训练数据,我们需要设计策略网络和学习算法,使得在D上训练的策略在部署到现实世界时是可迁移的。

这里我们特别考虑了一个桌面环境,该环境包含两个没有末端执行器的7自由度(7-DoF)机械臂,如图1所示。策略不知道真实的环境状态 ,但接收观测 ,该观测是从固定RGBD相机获取的深度图像,并转换为点云,以及机器人的本体感受关节状态。要操控的目标物体由桌面支撑,任务由物体在SE(2)中的姿态变换来定义。在每个时间步,我们计算任务规范 ,作为当前物体姿态和目标姿态之间的变换,并将其作为策略π的输入的一部分。

通过高效规划合成演示

为了可扩展地生成我们双手物体重新定位任务的演示,我们使用了运动规划,该规划利用仿真中的特权物体和机器人状态来生成轨迹。在通过接触进行规划框架的基础上进行了构建,并在规划流程中融入了一些最新进展,该进展提出了一种局部机器人-物体接触动力学的平滑线性近似,显著提高了规划效率。规划器的输入包括(i)系统的初始状态 ,其中 是机器人的关节角度, 是物体的姿态;(ii)目标物体姿态 。一个动作a包括两个手臂的命令关节角度。规划器生成一系列动作 ,将物体从初始姿态移动到目标姿态。与基于采样的规划器相比,我们采用贪婪方法接近目标,以加快计算速度并鼓励演示的一致性。在实践中,这种贪婪方法并没有显著影响规划器的成功率。算法1总结了所得规划器,其包括以下组件:

  • 一个接触采样器,用于生成机器人关节配置 ,在该配置下,机器人手臂以便于操控的方式(即“抓取”)与物体接触。在实现中,使用逆运动学来生成抓取动作,其中机器人的远端连杆可以稳定地夹持并固定物体。
  • 一个使用带捷径的双向快速随机搜索树(RRT)的无碰撞规划器,用于从当前机器人关节配置 规划到下一个抓取配置 的无碰撞轨迹。
  • 一个接触规划器,给定当前已经抓取物体的机器人配置 和物体的当前配置 ,它贪婪地尽可能将物体移向目标配置 ,同时确保机器人不超过关节限制。

接触规划器细节。许多先前的工作都集中在通过接触的轨迹优化上,但由于长时域轨迹优化和接触模式的指数级数量,它们的计算成本高昂,从而阻碍了高效轨迹的生成。为了降低这些成本,我们采用了轨迹优化的单步变体,使用局部接触动力学的线性近似 来解决以下目标的优化问题:

筛选后的行为克隆。由于接触动力学的近似性和规划器中RRT的随机性,所收集的轨迹通常不是最优的,因此我们对高质量演示的子集进行筛选后的行为克隆。为此在高保真模拟器中展开生成的轨迹,以验证其准确性,从而进行筛选。在此过程中,会丢弃物体未到达目标位置的轨迹和到达目标位置耗时过长的次优轨迹。最后对轨迹进行重新平衡,使其在物体上均匀分布,并为策略训练生成未着色的点云。我们将得到的演示轨迹子集保存为数据集D,用于训练策略。

从合成演示中学习扩散策略

给定合成演示D,我们通过行为克隆训练了一个用于接触丰富的双手操控的扩散策略 。为了使 能够为未见过的场景预测合适的操控动作,并有效地将学到的知识迁移到现实世界中,我们为现有的扩散策略学习方法引入了一系列关键的设计选项,用于特征提取、任务表示和动作预测。

为了从带噪声的点云观测中提取环境的几何信息,我们为 设计了一个特征提取主干网络,该网络可以促进对未见物体的泛化。为了实现对未见环境的泛化,我们裁剪了机器人工作空间内的点云,并去除了每帧中不相关的背景物体。此外,为了解决现实世界中遇到的现实差距和传感器噪声问题,这里引入了一种飞行点增强方法,其中我们以较小的概率(例如0.5%)随机向点添加大的高斯噪声。我们发现,这种方法在几乎不需要实现额外努力的情况下,显著提高了策略在现实世界的性能。

我们训练了一个单一策略,该策略将任务规范c作为额外的输入。不假设物体形状已知并直接指定目标物体姿态,而是使用初始视觉观测 以及从 中的初始物体姿态到目标物体姿态的增量变换 来隐式指定目标姿态。在每个后续时间步t,我们根据当前观测 重新计算从当前姿态到目标姿态的变换 。在不了解物体形状和预定义物体框架的情况下,我们建议使用开放词汇分割算法在 中分割目标物体,然后在分割结果内使用最远点采样选择关键点,最后通过实时物体跟踪在三维空间中跟踪这些关键点,从而获得

这里也设计了策略网络的预测头,以稳健地生成平滑且可行的运动轨迹。我们的策略预测一个包含 步的动作序列。为了提升性能,我们在测试时使用较大的Ta值(Ta=20),而在训练时则使用Ta=64。除此之外,我们重新设计了预测头,以预测从t+1到t+Ta时刻的关节位置残差动作,即 ,其中qt表示时间步t时的当前关节位置。与绝对关节动作相比,关节位置残差动作在训练轨迹中的尺度和偏移上更加一致,从而显著提升了策略在现实世界中的表现。

实验对比







请到「今天看啥」查看全文


推荐文章
中国铁建  ·  城轨动脉上的“新春温度”
17 小时前
中国城市规划  ·  讣告 | 深切缅怀林秋华同志
3 天前
中国铁建  ·  穿山越岭筑通途
昨天
中国铁建  ·  面朝“江海” 春暖花开!
2 天前
数码评价  ·  1499元的坚果会打动你吗
7 年前
懒人医学考试中心  ·  2017年护士成绩可以查询啦!
7 年前
第三者NOWHERE  ·  孟山都,有“种”你就封杀音乐
7 年前