专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
上海科创汇  ·  申报|金山区2023-2024年度科技创新奖励 ·  2 天前  
天下泉城  ·  逐梦科创,共筑成长 | 我家这一年 ·  2 天前  
天下泉城  ·  逐梦科创,共筑成长 | 我家这一年 ·  2 天前  
IPO早知道  ·  禾赛与Embotech和Outsight达成 ... ·  3 天前  
财联社AI daily  ·  卖方研究火力全开DeepSeek ·  3 天前  
财联社AI daily  ·  卖方研究火力全开DeepSeek ·  3 天前  
创业家  ·  人唯一真正的资产是时间 ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

顶会开源方案汇总!面向具身智能的扩散策略!

3D视觉工坊  · 公众号  ·  · 2024-10-25 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


3D视觉工坊为您网罗最新的行业动态、学术论文、科研成果、产品发布、新闻政策!

1. 基于扩散策略的灵巧功能预抓取操作

标题:Dexterous Functional Pre-Grasp Manipulation with Diffusion Policy

作者:Tianhao Wu, Yunchong Gan, Mingdong Wu, Jingbo Cheng, Yaodong Yang, Yixin Zhu, Hao Dong

机构:Peking University、

原文链接:https://arxiv.org/abs/2403.12421

代码链接:https://github.com/tianhaowuhz/DexFunPreGrasp

摘要:在真实世界场景中,对象在被抓取之前通常需要重新定位和重新定向,这一过程称为预抓取操作。学习通用灵巧功能预抓取操作需要精确控制手和物体之间的相对位置、方向和接触,同时推广到具有不同物体和目标姿态的不同动态场景。为了应对这一挑战,我们提出了一种师生学习方法,利用一种新颖的相互奖励,激励代理人共同优化三个关键标准。此外,我们引入了一个管道,采用混合专家策略来学习不同的操纵策略,然后采用扩散策略来捕获来自这些专家的复杂动作分布。我们的方法通过利用外部灵巧性和根据反馈进行调整,在超过30个对象类别上实现了72.6%的成功率。

2. 作为离线强化学习的表达策略类的扩散策略

标题:Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning

作者:Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou

机构:The University of Texas at Austin、Twitter

原文链接:https://arxiv.org/abs/2208.06193

代码链接:https://github.com/zhendong-wang/diffusion-policies-for-offline-rl

摘要:离线强化学习(RL)是一种重要的强化学习范式,旨在利用先前收集的静态数据集来学习最优策略。由于分布外操作的函数逼近误差,标准RL方法在这种情况下通常表现不佳。虽然已经提出了各种正则化方法来缓解这一问题,但是它们通常受到具有有限表达能力的策略类的约束,这可能导致非常次优的解决方案。在本文中,我们建议将策略表示为一个扩散模型,这是最近出现的一类高度表达的深度生成模型。我们引入了扩散Q学习(扩散QL ),它利用一个条件扩散模型来表示策略。在我们的方法中,我们学习一个动作值函数,并且我们将一个最大化动作值的项添加到条件扩散模型的训练损失中,这导致寻找接近行为策略的最优动作的损失。我们展示了基于扩散模型的策略的可表达性,并且在扩散模型下行为克隆和策略改进的耦合都有助于扩散QL的突出表现。我们用一个简单的多模态行为策略的2D强盗的例子来说明我们的方法与以前的工作相比的优越性。然后,我们展示了我们的方法可以在大多数D4RL基准测试任务上实现一流的性能。

3. 扩散策略

标题:Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

作者:Pete Florence, Corey Lynch, Andy Zeng, Oscar Ramirez, Ayzaan Wahid, Laura Downs, Adrian Wong, Johnny Lee, Igor Mordatch, Jonathan Tompson

机构:Robotics at Google

原文链接:https://proceedings.mlr.press/v164/florence22a/florence22a.pdf

代码链接:https://diffusion-policy.cs.columbia.edu/

摘要:本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来产生机器人行为的新方法。我们从4个不同的机器人操作基准测试了12个不同任务的扩散策略,发现它始终优于现有的最先进的机器人学习方法,平均提高了46.9%。扩散策略学习动作分布得分函数的梯度,并在推断期间通过一系列随机朗之万动力学步骤相对于该梯度场迭代优化。我们发现,当用于机器人策略时,扩散公式产生强大的优势,包括优雅地处理多模态动作分布,适用于高维动作空间,并表现出令人印象深刻的训练稳定性。为了充分释放物理机器人视觉运动策略学习的扩散模型的潜力,本文提出了一系列关键技术贡献,包括合并滚动时域控制、视觉条件和时序扩散转换器。我们希望这项工作将有助于激发新一代的政策学习技术,能够利用扩散模型强大的生成建模能力。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

4. 运动学感知的多任务机器人操作的分层扩散策略

标题:Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation

作者:Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James

机构:Dyson Robot Learning Lab

原文链接:https://arxiv.org/abs/2403.03890

代码链接:https://yusufma03.github.io/projects/hdp/

摘要:介绍了分层扩散策略(HDP),一种用于多任务机器人操作的分层智能体。HDP将操纵策略分解为一个层次结构:一个高级任务规划代理,它预测远端次优末端执行器姿态(NBP),一个低级目标条件扩散策略,它生成最佳运动轨迹。因式分解的策略表示允许HDP在生成细粒度低级行动的同时处理长期任务规划。为了在满足机器人运动学约束的同时生成上下文感知的运动轨迹,我们提出了一种新的运动学感知的目标条件控制代理,机器人运动学扩散器(RK-Diffuser)。具体来说,RK-扩散器学习生成末端执行器姿态和关节位置轨迹,并通过可微分运动学将精确但不知道运动学的末端执行器姿态扩散器提取到知道运动学但不太精确的关节位置扩散器。从经验上看,我们表明HDP在模拟和现实世界中都比最先进的方法取得了显著更高的成功率。

5. 使用基于分数的扩散策略的目标条件模仿学习

标题:Goal-Conditioned Imitation Learning using Score-based Diffusion Policies

作者:Moritz Reuss, Maximilian Li, Xiaogang Jia, Rudolf Lioutikov

机构:Karlsruhe Institute of Technology

原文链接:https://arxiv.org/abs/2304.02532

代码链接:https://paperswithcode.com/paper/goal-conditioned-imitation-learning-using

摘要:我们提出了一种新的基于分数扩散模型的策略表示。我们在目标条件模仿学习(GCIL)的领域中应用我们的新策略表示,以从大型无奖励的未分级数据集学习通用目标指定的策略。我们新的以目标为条件的政策架构”存在下一代ScO基于再扩散的政策”(BESO)利用一个生成的,基于分数的扩散模型作为其政策。与其他基于扩散的策略的30多个步骤相比,BESO将分数模型的学习从推理采样过程中解耦,因此允许快速采样策略在仅3个去噪步骤中生成目标指定的行为。此外,BESO是高度表达性的,并且可以有效地捕捉存在于游戏数据的解空间中的多模态。与之前的方法(如潜在计划或C-Bet)不同,BESO不依赖复杂的分层策略或额外的聚类来进行有效的目标条件行为学习。最后,我们展示了如何使用BESO甚至可以用来学习一个目标独立的政策,从播放数据使用分类器自由指导。据我们所知,这是第一个工作,a)表示基于这种解耦SDM的行为策略,b)学习GCIL领域中的基于SDM的策略,以及c)提供从游戏数据中同时学习目标相关和目标无关策略的方法。我们通过详细的模拟来评估BESO,并表明它在具有挑战性的基准上始终优于几种最先进的目标条件模仿学习方法。此外,我们还提供了广泛的消融研究和实验,以证明我们的目标条件行为生成方法的有效性。

这里给大家推荐一门我们最新的课程 国内首个面向具身智能方向的理论与实战课程》







请到「今天看啥」查看全文