专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉工坊

场面混乱听不清指令怎么执行任务?实体灵巧抓取系统EDGS指出了一条明路

计算机视觉工坊  · 公众号  ·  · 2025-02-07 07:00

正文

请到「今天看啥」查看全文


点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:具身智能之心

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

具身家庭客厅里,男主人的抖音在外放,电视在播放晚会节目,女主人在做饭,灶台“烽烟”四起。此时,一个具身机器人驶入大厅,并企图根据3岁小朋友模糊不清的指令找到并拿起特定的玩具。它能成功吗?

来源:https://weibo.com/1980569103/5120911533147181
以往的机器人在理解人类不精确的语音指令并在复杂、混乱的环境中抓取目标物体时总是力不从心,不是抓错东西就是根本找不到目标。如果有一种方法能够使机器人在接收到不精确的指令后,仍然有办法能够正确执行任务,那应用场景和用户接受度就能大大拓宽。
Embodied Dexterous Grasping System,这篇来自深圳市人工智能与机器人研究院的成果,介绍了一种实体灵巧抓取系统(EDGS),旨在解决人机交互中杂乱环境下的物体抓取问题,提升机器人对不精确自然语言指令的处理能力。 该系统通过融合语音指令和视觉信息,提出语义 - 对象对齐新方法,并受人类手部动作启发制定抓取策略,经实验验证能有效处理复杂抓取任务,具有较高成功率和稳定性。
图 1 展示了系统通过语音识别模块处理自然语言指令和视觉语言模型处理 RGB - D 场景数据,生成丰富对象描述,经分割模型和策略生成模块完成精确操作的流程。

方法

丰富表示引导分割(ERGS) - RERE 方法: 先通过语音命令获取目标对象初始描述,采用自适应音频捕获方法应对语音输入受噪声和歧义影响的问题,根据信号能量动态设置音频捕获阈值。然后将转录后的文本与视觉信息结合,通过跨模态对齐机制评估原始文本与视觉输入的匹配度,对不匹配情况提示用户澄清。同时,基于视觉特征从实例类别、颜色形状、材料纹理、位置等维度丰富文本语义,生成最终精确描述,此过程依场景动态调整各特征权重。
灵巧抓取候选生成(DGCG): 受人类抓取行为启发,处理 RGB - D 数据几何信息。对分割对象用细化算法提取骨架线,结合主成分分析(PCA)确定特征向量,为后续抓取评估做准备。然后将对象特征向量与手部配置结合评估抓取可行性。把手指工作空间建模为截断样条,考虑拇指与其他手指的协调及不同自由度,在手部工作空间内确定固定捏合轴与对象特征向量的关系,计算交集并通过自定义函数评估抓取质量,生成动作候选集,其中涉及摩擦系数估计和高斯分布应用。
灵巧抓取优化(DGR): 依据力闭合和抓取 wrench 空间(GWS)评估抓取质量。力闭合判断抓取姿态成功与否,GWS 及其空间张量量化评估抗外部干扰能力,筛选满足力闭合的抓取候选,进一步根据 GWS 指标选择高质量抓取。借鉴人类运动最优选择倾向,采用 STOMP 方法优化路径。考虑位姿、关节和动态障碍避免等约束,通过逆运动学计算关节空间差异,选择最优抓取动作,提高抓取成功率和执行效率。
图 2 呈现了从分割点云开始,经过特征提取、约束采样、接触点估计等步骤,利用 GPT 辅助模块和 GWS 质量评估确定最佳 12D 动作的抓取策略生成方法。

实验

实验在单臂平台进行,平台包含 UR5 机械臂及末端 Inspire 灵巧手,通过以太网和 USB 接口实现机械臂、控制器与 RGB - D 相机的数据传输,选择多种未见家用物品作为实验对象。
图 3 是单臂灵巧抓取平台的概览,包括 UR5 机械臂、Inspire 灵巧手、RGB - D 相机及放置在柜子上的用于实验的各种家用物品。
指令语义丰富实验
在 GraspNet - 1Billion 数据集应用 RERE 技术,使用 Grounded SAM、SEEM、Florence - 2 三种分割模型。用原始标注、RGB 图像和设计的提示增强原始字幕描述,生成对象掩码后与真实标注对比评估。结果显示, RERE 显著提高所有模型分割性能 ,Grounded SAM 的 IoU 提升近 20 分。消融研究表明综合丰富特征可获最佳效果,但原始表达异常或物体遮挡时 RERE 面临挑战,如出现类混淆、边界不准确等错误。
图 4 对比了有无 RERE 时抓取场景中的分割错误,包括类混淆、边界不准确、对象合并和假阴性这四种常见类型。
抓取成功率实验
单对象抓取 :对十一种不同物体量化评估抓取成功率,每个物体取八个随机姿态。EDGS 在多数物体上达 100%成功率,在如木块和胶带等挑战性物体上也表现出色,优于 DexDiffuser、ISAGrasp 等方法。
图 5 展示了十一种物体的抓取场景,体现了系统在不同物体上的抓取性能。
逐对象抓取 :按特定对象排列进行实验,EDGS 成功率达 95.5%,远超 DexGraspNet 2.0、ISAGrasp 等其他方法,体现其在多对象抓取任务中的高效适应性。
应用场景实验
在包含水果、家居和蔬菜的杂乱环境中测试,EDGS 能有效处理语音指令,总体成功率达 96.1%,水果类最高为 98.3%。失败原因主要是物体形状复杂、环境杂乱干扰目标识别与分割、动态交互中物体易滑落。
图 6 呈现了语音控制灵巧抓取在水果、家居用品、蔬菜三类物品的应用场景,凸显了系统在复杂环境下的表现。

相关工作

指代表达表示(RER)在机器人感知中极为关键,影响目标检测与定位。 在杂乱环境下,提升其准确性是研究关键。Referring Expression Segmentation(RES)的发展推动了 RER 应用,像 GRES(Chang Liu 等 2023)、LAVT(Zhao Yang 等 2022)、Text4Seg(Mengcheng Lan 等 2024)等方法分别从不同角度改进了分割效果。同时,Grounded SAM(Tianhe Ren 等 2024)、SEEM(Xueyan Zou 等 2024)、Florence - 2(Bin Xiao 等 2024)等在分割技术上也各有创新,且多模态表示学习(如 Tadas Baltrušaitis 等 2018、Jiquan Ngiam 等 2011、Jiaming Liu 等 2024 的研究)为其提供了重要助力。
在灵巧抓取系统方面,重点是提高不同物体尤其是杂乱场景中的抓取成功率。 基于几何的方法如点云(Andreas ten Pas 等 2017)、几何分解(Samuel Li 等 2024)等被广泛应用。数据驱动方法如 Wang 等(Ruicheng Wang 等 2023)、Vuong 等(An Dinh Vuong 等 2023)的研究虽有进展但受数据与现实差距限制。GraspGPT(Chao Tang 等 2023)、AnyGrasp(Hao - Shu Fang 等 2023)等集成方法有所改进但仍有局限。强化学习方法如 Mosbach 等(Malte Mosbach 等 2024)、Priyanka Mandikal 等(2021)、Lum 等(Tyler Ga Wei Lum 等 2024)虽有优势但在杂乱场景有挑战,混合方法(Weikang Wan 等 2023;Yinzhen Xu 等 2023)也存在问题,而本文方法优势明显。

总结与展望

EDGS 框架通过自然语言命令实现复杂环境精确抓取,RERE 方法提高分割精度,实验证明系统成功率高、稳定性好,未来将优化抓取生成效率和适应性。
与人类在复杂环境表现仍有差距,如缺乏人类水平多模态感官整合、分割方法未建立结构 - 功能语义映射、手部缺乏精细触觉传感组件、单手单臂系统对大尺寸物体力闭合不足等,但系统可模块化部署于多种平台。
Grasp What You Want: Embodied Dexterous Grasping System Driven by Your Voice
https://arxiv.org/pdf/2412.10694
通讯作者主页:https://www.aminer.cn/profile/yongquan-chen/6161ec3d60a9657b486b652c?source=bz1
通讯作者主页:https://crai.cuhk.edu.cn/people/264
第一作者为 Junliang Li(https://ieeexplore.ieee.org/author/632331698904589)和Kai Ye,作者单位:深圳市人工智能与机器人研究院(https://airs.cuhk.edu.cn/)。通讯作者为陈永权(https://www.aminer.cn/profile/yongquan-chen/6161ec3d60a9657b486b652c?source=bz1)、Huang, Rui(https://crai.cuhk.edu.cn/people/264)。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网: www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制 无人机仿真 C++、三维视觉python、dToF、相机标定、ROS2 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

点这里 👇 关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~







请到「今天看啥」查看全文