点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章介绍了V-HOP,一种融合视觉和触觉感知的6D物体姿态跟踪系统。V-HOP结合了视觉输入和触觉反馈,通过自注意力机制有效地在动态环境和高遮挡条件下进行物体姿态跟踪。实验结果表明,V-HOP在多种实际任务中表现优异,包括双臂交接、物体插入等复杂操作,相比于现有的视觉和视觉-触觉方法,其成功率更高、稳定性更强。此外,V-HOP的实时姿态跟踪能够与运动规划系统集成,成功执行精确的操作任务,展示了其在实际机器人应用中的潜力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:V-HOP: Visuo-Haptic 6D Object Pose Tracking
作者:Hongyu Li, Mingxi Jia等
作者机构:Brown University等
论文链接:https://arxiv.org/pdf/2502.17434
2. 摘要
在人类操控物体时,视觉和触觉能够自然地融合,实现稳健的物体感知。丧失其中任何一种感知模式都会显著降低任务表现。受到这种多感官整合机制的启发,已有的物体姿态估计研究尝试结合视觉和触觉/触感反馈。尽管这些方法在受控环境或合成数据集上有所提升,但在现实场景中往往不及仅依赖视觉的方法,主要原因是它们在不同机械夹爪、传感器布局或仿真到真实(sim-to-real)环境中的泛化能力较差。此外,现有方法通常对每一帧独立估计物体姿态,导致在实际部署时跟踪结果缺乏时序连贯性。
为了解决这些问题,我们提出了一种新颖的统一触觉表示方法,该方法能够有效适配多种机械夹爪形态。基于这一表示,我们进一步设计了一种新的基于视觉-触觉 Transformer 的物体姿态跟踪器,该方法能够无缝融合视觉和触觉信息。我们在自建数据集和 Feelsight 数据集上对该框架进行了验证,并在挑战性序列上实现了显著的性能提升。值得注意的是,我们的方法在不同机械夹爪形态、新物体以及不同类型的触觉传感器(包括基于触元的传感器和基于视觉的触觉传感器)上展现出了卓越的泛化能力和鲁棒性。在真实世界实验中,我们的方法相比最新的视觉跟踪器取得了大幅度性能提升。此外,我们进一步展示了如何将实时物体跟踪结果融入运动规划,从而实现高精度的操作任务,凸显了视觉-触觉感知的优势。
推荐课程:
扩散模型入门教程:数学原理、方法与应用
。
我们的模型和数据集将在论文接收后开源。 项目网站:https://lhy.xyz/projects/v-hop/
3. 效果展示
姿态跟踪序列的定性结果。我们使用YCB对象在真实的世界中验证性能。本图中突出显示了髋臼杯和电钻,而更多对象的结果在附录中。
4. 主要贡献
-
统一触觉表示(Unified Haptic Representation)
我们提出了一种新颖的统一触觉表示,以促进跨形态学习。
具体而言,我们将触觉(皮肤触觉)和本体感觉结合,以点云(point cloud)的形式表示,从而填补了视触觉学习中长期被忽视的关键环节。
-
基于 Transformer 的视触觉物体姿态跟踪器(Visuo-Haptic Transformer)
我们提出了一种 Transformer 模型,用于融合视觉和触觉特征。
该模型在视觉基础模型(Visual Foundation Model)捕获的强大视觉先验基础上,引入触觉信息,提升跟踪一致性。 V-HOP 能够适应不同的夹爪形态和物体,并且能够泛化到新的夹爪和物体上。
5. 基本原理是啥?
V-HOP的基本原理是通过结合视觉和触觉感知信息,使用视觉-触觉变换器来实现6D物体姿态的稳定跟踪。该方法利用统一的触觉表示与视觉输入相结合,从而实现更高精度的物体姿态估计,尤其是在高遮挡和动态条件下的复杂环境中。
-
视觉-触觉融合
:V-HOP通过集成视觉输入(来自RGB-D摄像头等)和触觉输入(来自力传感器或触觉传感器)来估计物体姿态。视觉信息提供了物体的外部外观,而触觉信息则提供了物体与环境的接触情况,有助于克服视觉输入中的遮挡或模糊问题。
-
视觉-触觉变换器
:V-HOP利用变换器(Transformer)模型来处理和融合视觉与触觉信息。变换器模型能够有效地捕捉输入信息之间的复杂关系,特别是可以处理长时间依赖和空间上的变换。这使得V-HOP能够处理动态变化和高遮挡的场景。
-
稳定的6D姿态跟踪
:V-HOP能够实时跟踪物体的6D姿态(包括位置和方向),并通过结合视觉和触觉信息,在运动过程中提供稳定的物体跟踪。这使得机器人能够在动态环境下保持对物体姿态的精确估计,尤其是在手部操作和物体交接等任务中。
-
自注意力机制(Self-Attention)
:在V-HOP中,采用了自注意力机制来模拟人类“最优整合”原理。当物体被抓取并与机器人手部接触时,系统的触觉感知会逐渐变得重要,从而增强对物体姿态的跟踪能力。
6. 实验结果
V-HOP的实验结果表明,它在多种任务中相较于现有的视觉和视觉-触觉方法表现出了更高的稳定性和鲁棒性,尤其是在面对高遮挡和动态变化的条件下。
-
-
在这一实验中,机器人抓取物体并沿着随机轨迹运动,期间会经历严重的遮挡和快速动态变化,模拟了真实世界中复杂的操作场景。在这种情况下,依赖于视觉输入的FoundationPose系统经常丢失跟踪,而V-HOP能够始终稳定地跟踪物体,展示了其在高动态环境中的鲁棒性。