点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
来源:松灵机器人
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门独家秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
❓在机器人操作任务中,实现
空间泛化
一直是个艰难的挑战:如何让机器人不仅在实验室中完成固定环境seting下的操作任务,还能在真实世界中应对多样化的物体位置和复杂的场景布置。
📌所谓空间泛化即是:机器人操作的模型在一个空间体积中的任何位置都能完成任务,即便是机械臂的工作空间边缘。
📅近日,来自
清华大学和新加坡国立大学团队
为这一难题带来了新颖的解决方案--
ManiBox
。
ManiBox
是一个创新性的机器人操作算法框架,深入探索了
具身智能的空间泛化性 Scaling Laws
,并通过
大量模拟器数据
和
Bounding Box
这样的视觉低维特征引导,成功实现了空间泛化、背景泛化和物体泛化的抓取任务。
此外,ManiBox 不仅能够完成常规抓取,还扩展到更复杂的任务,如
倒水,抓取杯子把手,杂乱桌面抓取
等等精细操作场景,展现了出色的 Sim2Real 能力。更为引人注目的是,用户只需输入一个物体的
prompt
,ManiBox 即可自动执行对应物体的抓取、倾倒等操作,显著提升了机器人操作任务的鲁棒性与灵活性。
项目主页:https://thkkk.github.io/manibox
论文作者:Hengkai Tan, Xuezhou Xu, Chengyang Ying, Xinyi Mao, Songming Liu, Xingxing Zhang, Hang Su, Jun Zhu
数据采集平台:松灵移动式双臂遥操作数据采集平台CobotMagic
ManiBox 深入探索了
具身智能的空间泛化性 Scaling Laws
,首次揭示了操作任务中的两大关键关系:
-
成功率与数据量
呈现出米氏-曼特恩
(Michaelis-Menten)动力学曲线
:
📌
在成功率比较低的时候,增加数据量可以显著提升成功率;
📌
成功率达到80%-90%之后,数据量即使再继续增加,模仿学习策略的成功率也逐渐趋于饱和,上升缓慢;
-
数据量趋于无穷的情况下,成功率趋于100%。
-
成功率与数据量的关系用公式表示为:
-
success_rate= 100% * D / (K_m + D),其中D是数据量,K_m是达到50%成功率所需的数据量。
-
空间泛化所需数据量与空间体积
呈现
幂律关系
,即更多数据可显著提升更大空间范围内的泛化能力。
📌比如如果要扩展到x倍的空间体积,那么数据量需要扩展大约x^0.35倍。
📌在文中的setting中,34400cm^3相对于1cm^3,前者空间泛化所需的数据量是后者的34400^0.35=38倍。
-
ManiBox 通过
policy generalization
方法来有效解决了空间泛化性问题,确保策略能够在多样化的环境中表现出强大的适应性——即便视觉模型存在较大的不确定性。
借助
YOLO-World这样的开集边界框检测模型
,ManiBox 精准提取多视角的低维空间信息,将复杂的高维视觉问题转化为简化的状态建模问题,从而为策略训练提供了坚实的基础。
最终,通过训练一个基于状态的策略(state-based policy),实现了从仿真到真实世界的高效迁移。
-
结合
随机掩码(random mask)技术
和
历史轨迹信息
,ManiBox显著提升了策略在应对视觉噪声和检测失败场景下的鲁棒性,进一步加强了模型的泛化能力和在真实环境中的表现。
-
教师策略:
通过强化学习与模仿学习相结合的框架,ManiBox可以做到2h训练完强化学习策略,仅用
一天时间
自动化采集了
36,000条高质量模拟数据
,涵盖多种物体形状、大小和空间配置。
-
学生策略:
在此数据上训练,仅需
2 分钟
即可完成模型学习,达成零样本迁移,在真实场景中高效部署。
-
基于强化学习的操作策略,相比传统的视觉方法可以有更强大通用性和鲁棒性,比如传统的视觉方法需要利用IK(逆运动学)求解joint position,然而利用IK的方法一方面难以处理复杂任务比如倒水,另一方面IK难以成功覆盖机械臂全空间,在边缘处经常存在奇异解而失败。
-
空间泛化
:ManiBox实现了从固定点到
34440cm³
最大操作空间范围的高效覆盖,抓取成功率高达
90%
。
-
物体泛化
:无论是苹果、钢杯,还是玻璃烧杯,ManiBox对各种形状、大小的物体都能精准抓取。
-
背景泛化
:面对各种背景挑战,无论是不同颜色桌布、复杂桌面,还是动态光源和视频干扰,ManiBox始终表现稳定。
ManiBox 的强大适应性让其轻松扩展至复杂操作任务,并在真实环境中成功完成了(注:以下视频均为2倍速):
论文中通过实验即使在
视觉遮挡率高达40%
或
Bounding Box 识别噪音高达 5%
的情况下,ManiBox 依然展现强大的鲁棒性和操作能力。
即便在黑暗环境下,检测模型大部分时间下没有检测到目标物体(如下图,只有少数时间检测模型检测到了目标物体),纯靠策略的泛化性,机械臂也能精准完成抓取任务。
ManiBox 的推出不仅为机器人操作任务提供了一种高效可靠的解决方案,更定义了一种 “
数据驱动的空间智能
” 方法,让机器人在复杂真实场景的实用性成为可能。它为机器人在复杂真实场景中的表现奠定了理论和技术基础,具有广泛的
工业与家庭应用潜力
。
未来,我们可以想象机器人在更多复杂任务中展现卓越表现:从家庭助手到工业协作,ManiBox 将具身智能在复杂真实场景的实用性带到一个新高度!
更多精彩内容、实验视频、论文与开源代码,请访问 https://thkkk.github.io/manibox
Mobile ALOHA开源项目发布以来,其便携式、低成本的采集真实有效的真实数据的方案深受行业认同。
松灵Cobot Magic
基于ALOHA致力于更广泛地为全球科研探索、技术创新及数据开源提供整套完成的开箱即用的解决方案。
自年初发布以来,凭借其强大的硬件基础,吸引
50+
高校和科研机构进行使用和开发积累,累计以来,我们开发者群体在这里产生了大量学术成果,我们也在这里进行收集,涵盖了通过AGIC生成高质量数字资产、仿真数据生成、标准数据、大模型等,并初步构建围绕
硬件、数据、具身智能模型的三位一体化解决方案
。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注: