专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
直播海南  ·  警惕!广东爆发2起,均在学校! ·  昨天  
直播海南  ·  蒋超良被查! ·  2 天前  
直播海南  ·  大桥通车1年多开裂?官方通报 ·  2 天前  
直播海南  ·  事关电动自行车以旧换新补贴!最新提醒→ ·  3 天前  
51好读  ›  专栏  ›  3DCV

如何让机器人操作任务在任何位置都能work?清华新国大团队发现空间泛化Scaling Laws!

3DCV  · 公众号  ·  · 2025-01-11 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:松灵机器人

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


| 前言

❓在机器人操作任务中,实现 空间泛化 一直是个艰难的挑战:如何让机器人不仅在实验室中完成固定环境seting下的操作任务,还能在真实世界中应对多样化的物体位置和复杂的场景布置。

📌所谓空间泛化即是:机器人操作的模型在一个空间体积中的任何位置都能完成任务,即便是机械臂的工作空间边缘。

📅近日,来自 清华大学和新加坡国立大学团队 为这一难题带来了新颖的解决方案-- ManiBox


什么是ManiBox

ManiBox 是一个创新性的机器人操作算法框架,深入探索了 具身智能的空间泛化性 Scaling Laws ,并通过 大量模拟器数据 Bounding Box 这样的视觉低维特征引导,成功实现了空间泛化、背景泛化和物体泛化的抓取任务。

此外,ManiBox 不仅能够完成常规抓取,还扩展到更复杂的任务,如 倒水,抓取杯子把手,杂乱桌面抓取 等等精细操作场景,展现了出色的 Sim2Real 能力。更为引人注目的是,用户只需输入一个物体的 prompt ,ManiBox 即可自动执行对应物体的抓取、倾倒等操作,显著提升了机器人操作任务的鲁棒性与灵活性。

项目主页:https://thkkk.github.io/manibox

论文作者:Hengkai Tan, Xuezhou Xu, Chengyang Ying, Xinyi Mao, Songming Liu, Xingxing Zhang, Hang Su, Jun Zhu

数据采集平台:松灵移动式双臂遥操作数据采集平台CobotMagic


创新亮点

1.空间泛化的理论突破

ManiBox 深入探索了 具身智能的空间泛化性 Scaling Laws ,首次揭示了操作任务中的两大关键关系:

  • 成功率与数据量 呈现出米氏-曼特恩 (Michaelis-Menten)动力学曲线

    📌 在成功率比较低的时候,增加数据量可以显著提升成功率;

    📌 成功率达到80%-90%之后,数据量即使再继续增加,模仿学习策略的成功率也逐渐趋于饱和,上升缓慢;

  • 数据量趋于无穷的情况下,成功率趋于100%。

  • 成功率与数据量的关系用公式表示为:

  • success_rate= 100% * D / (K_m + D),其中D是数据量,K_m是达到50%成功率所需的数据量。

  • 空间泛化所需数据量与空间体积 呈现 幂律关系 ,即更多数据可显著提升更大空间范围内的泛化能力。

    📌比如如果要扩展到x倍的空间体积,那么数据量需要扩展大约x^0.35倍。

    📌在文中的setting中,34400cm^3相对于1cm^3,前者空间泛化所需的数据量是后者的34400^0.35=38倍。

2.从模拟到真实的完美迁移

  • ManiBox 通过 policy generalization 方法来有效解决了空间泛化性问题,确保策略能够在多样化的环境中表现出强大的适应性——即便视觉模型存在较大的不确定性。

    借助 YOLO-World这样的开集边界框检测模型 ,ManiBox  精准提取多视角的低维空间信息,将复杂的高维视觉问题转化为简化的状态建模问题,从而为策略训练提供了坚实的基础。

    最终,通过训练一个基于状态的策略(state-based policy),实现了从仿真到真实世界的高效迁移。

  • 结合 随机掩码(random mask)技术 历史轨迹信息 ,ManiBox显著提升了策略在应对视觉噪声和检测失败场景下的鲁棒性,进一步加强了模型的泛化能力和在真实环境中的表现。

3.高效数据生成与学生策略学习

  • 教师策略: 通过强化学习与模仿学习相结合的框架,ManiBox可以做到2h训练完强化学习策略,仅用 一天时间 自动化采集了 36,000条高质量模拟数据 ,涵盖多种物体形状、大小和空间配置。

  • 学生策略: 在此数据上训练,仅需 2 分钟 即可完成模型学习,达成零样本迁移,在真实场景中高效部署。

  • 基于强化学习的操作策略,相比传统的视觉方法可以有更强大通用性和鲁棒性,比如传统的视觉方法需要利用IK(逆运动学)求解joint position,然而利用IK的方法一方面难以处理复杂任务比如倒水,另一方面IK难以成功覆盖机械臂全空间,在边缘处经常存在奇异解而失败。



ManiBox 的实际表现如何?

✅ 全方位的泛化能力

  • 空间泛化 :ManiBox实现了从固定点到 34440cm³ 最大操作空间范围的高效覆盖,抓取成功率高达 90%


  • 物体泛化 :无论是苹果、钢杯,还是玻璃烧杯,ManiBox对各种形状、大小的物体都能精准抓取。


  • 背景泛化 :面对各种背景挑战,无论是不同颜色桌布、复杂桌面,还是动态光源和视频干扰,ManiBox始终表现稳定。



📊 更多实验成果展示

ManiBox 的强大适应性让其轻松扩展至复杂操作任务,并在真实环境中成功完成了(注:以下视频均为2倍速):

  • 倒水: ManiBox不仅能抓取,通过修改teacher policy,还能实现不同瓶子的倒水。精准调整角度与力度,实现平稳且可控的液体倾倒;

  • 抓取半空中物体: 灵活应对动态目标;


  • 杂乱桌面抓取: 在拥挤环境中精准抓取;


  • 抓取杯子把手: 精细操作复杂物体的局部。


论文中通过实验即使在 视觉遮挡率高达40% Bounding Box 识别噪音高达 5% 的情况下,ManiBox 依然展现强大的鲁棒性和操作能力。

即便在黑暗环境下,检测模型大部分时间下没有检测到目标物体(如下图,只有少数时间检测模型检测到了目标物体),纯靠策略的泛化性,机械臂也能精准完成抓取任务。


意义与未来展望

ManiBox 的推出不仅为机器人操作任务提供了一种高效可靠的解决方案,更定义了一种 “ 数据驱动的空间智能 ” 方法,让机器人在复杂真实场景的实用性成为可能。它为机器人在复杂真实场景中的表现奠定了理论和技术基础,具有广泛的 工业与家庭应用潜力

未来,我们可以想象机器人在更多复杂任务中展现卓越表现:从家庭助手到工业协作,ManiBox 将具身智能在复杂真实场景的实用性带到一个新高度!

更多精彩内容、实验视频、论文与开源代码,请访问 https://thkkk.github.io/manibox


数据采集设备介绍

Mobile ALOHA开源项目发布以来,其便携式、低成本的采集真实有效的真实数据的方案深受行业认同。

松灵Cobot Magic 基于ALOHA致力于更广泛地为全球科研探索、技术创新及数据开源提供整套完成的开箱即用的解决方案。

自年初发布以来,凭借其强大的硬件基础,吸引 50+ 高校和科研机构进行使用和开发积累,累计以来,我们开发者群体在这里产生了大量学术成果,我们也在这里进行收集,涵盖了通过AGIC生成高质量数字资产、仿真数据生成、标准数据、大模型等,并初步构建围绕 硬件、数据、具身智能模型的三位一体化解决方案

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注:







请到「今天看啥」查看全文