专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
玩车教授  ·  教授说车 | 当电车司机遇上油车司机 ·  3 天前  
幸福东台  ·  明起,东台人的早饭建议调整一下 ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

CoRL'24 | pass离线微调!在线实现机器人的学习高效微调!

3D视觉工坊  · 公众号  ·  · 2024-09-16 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了 MOTO(Model-based Offline to Online Fine-tuning)算法,该算法旨在通过模型驱动的方法实现从离线数据到在线微调的高效转化。MOTO 结合了模型基础的价值扩展、不确定性感知的预测建模和行为正则化策略,改进了传统的演员-评论家算法。实验结果显示,MOTO 在 MetaWorld 和 Standard Franka Kitchen 环境中表现优异,能够在多种操控任务中实现高成功率,超越了现有的离线模型基础强化学习算法和一些在线模型基础学习算法。文章还展示了 MOTO 在处理部分可观测和长时间控制问题上的有效性,并指出了它在模型无关方法中的优势以及对真实世界应用的潜力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning

作者:John D. Martin, Mariano Phielipp等

作者机构:Stanford University等

论文链接:https://arxiv.org/pdf/2401.03306

2. 摘要

我们研究了在现实机器人任务中,从高维观测数据进行离线预训练和在线微调的问题。最近的离线无模型方法成功地利用在线微调来提升代理在数据收集策略上的表现或适应新的任务。与此同时,基于模型的强化学习(RL)算法在样本效率和任务复杂度方面取得了显著进展,但在微调设置中仍然未得到充分利用。在本工作中,我们认为现有的基于模型的离线RL方法不适合用于高维领域的离线到在线微调,因为它们存在分布偏移、离线动态数据和非平稳奖励等问题。我们提出了一种基于策略的模型方法,该方法通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型的过度利用。我们发现,我们的方法成功解决了MetaWorld基准测试中的任务以及Franka Kitchen机器人操作环境中的任务,完全从图像中实现。根据我们所知,MOTO是第一个从像素解决该环境的方法。

3. 效果展示

展示了我们实验中使用的10种不同 MetaWorld 环境。上排从左到右依次为:assembly-v2、bin-picking-v2、box-close-v2、coffee-push-v2、disassemble-v2。下排从左到右依次为:door-open-v2、drawer-open-v2、hammer-v2、plate-slide-v2、window-open-v2。

4. 主要贡献

  • 我们提出了一种新的基于模型的演员-评论家算法,用于离线预训练和在线微调;
  • 我们展示了从图像中成功解决Franka Kitchen任务的首个方法;
  • 我们经验验证了提出的理论性能差距; 推荐课程: 国内首个面向具身智能方向的理论与实战课程
  • 为了促进该领域的进一步研究,我们将公开发布我们的环境和数据集。

5. 基本原理是啥?

  1. 模型基础的策略优化 :MOTO 通过将模型基础的方法应用于策略优化,使用模型生成的预测数据来扩展和优化策略。这种方法利用离线数据进行预训练,然后在线微调,以提高效率和性能。

  2. 不需要大量的回放缓冲区 :传统的模型基础方法通常需要大量的回放缓冲区来存储中间表示。MOTO 通过利用高质量的离线数据来监督批评者学习,并引导策略优化,从而避免了对大规模回放缓冲区的依赖。

  3. 不确定性感知的预测建模 :MOTO 使用模型基础的不确定性估计(如集合统计)来避免模型利用问题。它通过对模型生成的状态和奖励进行不确定性惩罚,来引入保守性,从而提高模型的稳定性和可靠性。

  4. 行为正则化 :在策略训练的初期阶段,MOTO 通过引入行为正则化来确保策略学习的稳定性和安全性。行为正则化通过对策略进行约束,防止策略在训练过程中产生不安全的行为。

  5. 在线微调 :在离线预训练之后,MOTO 通过在线交互对策略进行微调。这样可以使策略在实际环境中得到进一步优化,从而提高其在现实应用中的性能和泛化能力。

  6. 理论与实验验证 :MOTO 结合了理论验证和实验结果,确保其方法在现实世界应用中的有效性。通过在复杂的操控任务上进行实验,MOTO 展示了其在不同任务上的优越性能。

6. 实验结果

MetaWorld 实验结果

  • 任务表现 :在 MetaWorld 的 10 个任务中,MOTO 在 9 个任务上表现优于其他方法。这表明 MOTO 能够有效地进行离线预训练并在各种操控任务上进行在线微调。
  • 对比方法 :DreamerV2 是唯一一个在 MetaWorld 任务中表现出竞争力的其他方法。模型无关的基线方法在所有任务上表现较差。COMBO 和 LOMPO 在大多数任务上成功率非常低,这可能是因为 MetaWorld 环境中每次新任务的随机化程度很高,导致图像表示经常变化,从而影响了这两种方法的性能。

Franka Kitchen 实验结果

  • “Mixed” 和 “Partial” 任务
    • “Mixed” 任务 :MOTO 在 “mixed” 任务中达到了 100% 的最终成功率。
    • “Partial” 任务 :MOTO 在 “partial” 任务中达到了 90.5% 的最终成功率。
  • 对比方法 :DreamerV2 是唯一一个获得非平凡成功率的方法。模型无关的方法在这两个任务上都取得了一些进展,但最终停滞不前,不能成功完成所有目标物体。模型基础的方法 LOMPO 和 COMBO 的进展非常有限,这与在第 4 节开头提到的非平稳性问题有关。

消融研究

  • 模型组件贡献 :消融研究显示,所有去除的模型组件在 “mixed” 任务上都有显著进展,但只有完整的模型才能完全解决任务。在 “partial” 任务上,完整模型的表现远远优于其他方法。
  • 行为克隆数据正则化 :没有任何行为克隆(BC)数据正则化的情况下,“No BC., No Unc.” 和 DreamerV2 方法学习了不安全的行为,例如将水壶撞到目标位置或用机器人头部撞击开关,而不是用夹爪抓取和放置物体。这些行为在正则化方法中没有出现。

结论

  • MOTO 的优势 :MOTO 在离线预训练和在线微调的结合上表现出色,能够在多种任务中实现高成功率。
  • 方法的适用性 :MOTO 在复杂的环境中展现了其有效性,尤其是在处理部分可观测环境和处理长时间控制问题方面。

7. 总结 & 未来工作

MOTO 算法设计不需要大量的中间表示回放缓冲区,同时仍允许使用高质量的数据来监督批评者学习和引导策略优化。我们认为这些特点使 MOTO 非常适合现实的离线到在线微调应用,这些应用需要大规模的模型。我们计划在未来的工作中在大规模现实领域,如 CARLA上评估 MOTO。MOTO 也非常适合模型驱动的模仿学习设置,这一设置最近也在现实世界场景中取得了成功。通过使用在政策上的滚动,MOTO 可以保持对抗模仿学习的稳定性和理论保证,同时仍使用高质量的专家数据来监督批评者,并对策略进行正则化。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群







请到「今天看啥」查看全文