专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

视觉&触觉&本体感知！VinT-6D：大规模手持物体数据集缩短仿真与实际应用的差距！

3D视觉工坊 · 公众号 · · 2025-01-08 10:18

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章介绍了VinT-Net，一种用于机器人手持物体姿态估计的多模态神经网络。该方法结合了视觉、触觉和本体感觉数据，通过两个主要模块：感知聚合模块和基于3D关键点的姿态估计模块，精确地估计物体的6D姿态。实验表明，VinT-Net在处理模拟和现实数据的结合上表现出色，能够有效应对机器人手抓物体时的遮挡问题，且相比于现有的单一视觉方法，结合触觉数据后的表现有显著提升。通过VinT-6D数据集，该方法展示了其在机器人领域中的巨大潜力，并为未来在该领域的进一步研究奠定了基础。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：VinT-6D: A Large-Scale Object-in-hand Dataset from Vision, Touch and Proprioception

作者：Zhaoliang Wan， Yonggen Ling等

作者机构：School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China等

论文链接：https://arxiv.org/pdf/2501.00510

2. 摘要

本文解决了大规模数据集稀缺的问题，这对于在“感知-规划-控制”范式下进行准确的物体手持姿态估计至关重要，尤其是在机器人手持操作中。具体而言，我们介绍了VinT-6D，这是首个融合视觉、触觉和本体感知的广泛多模态数据集，旨在提升机器人操作能力。VinT-6D包含200万条VinT-Sim和10万条VinT-Real数据，数据通过在MuJoCo和Blender中的仿真以及自定义设计的现实世界平台收集而成。该数据集专为机器人手设计，提供全手部触觉感知模型以及高质量、对齐良好的数据。根据我们所知，VinT-Real是考虑到真实环境中数据采集难度后的最大数据集，它能够弥合仿真与现实之间的差距，相较于之前的工作，具有重要的意义。在VinT-6D的基础上，我们提出了一种基准方法，通过融合多模态信息显著提高了性能。该项目可在https://VinT-6D.github.io/获取。

3. 效果展示

逼真的渲染RGB图像。我们呈现了一组逼真的渲染图像，描绘了手中的物体。

对齐良好的视觉和触摸数据可视化。左边的图像显示了被握住物体的彩色渲染图像，而右边的图像则描绘了由深度相机生成的点云。灰色点表示深度，而红色点表示已激活的触摸点。

4. 主要贡献

提出VinT-6D数据集 ：我们提出了一个开创性的多模态数据集——VinT-6D，用于6D物体手中姿态估计。该数据集结合了视觉、触觉和本体感知信息，旨在为机器人手提供高质量的数据，支持更精确的物体姿态估计。
大规模数据集 ：VinT-6D包含超过200万的合成数据（VinT-Sim）和10万的真实数据（VinT-Real），为物体姿态估计提供了丰富的多模态数据，支持机器人在各种抓取场景中的表现。
基准方法与性能提升 ：我们展示了基于VinT-6D的基准方法，取得了显著的性能提升。该方法能够有效缩小模拟数据与真实世界数据之间的差距，证明了该数据集在实际应用中的潜力。
多模态融合方法 ：通过VinT-Net，我们提出了一种简单却有效的多模态数据融合策略，能够有效地处理视觉、触觉和本体感知数据，从而提高6D物体姿态估计的精度。

5. 基本原理是啥？

VinT-6D数据集和VinT-Net方法的基本原理是通过多模态数据融合来提升6D物体手中姿态估计的精度：

多模态数据融合 ：

这些多模态数据的融合使得模型能够在复杂场景下（如部分遮挡的物体）仍然获得较高的精度。

视觉数据 ：通过RGB图像和深度图像，提供物体外观和空间信息。
触觉数据 ：来自机器人触觉传感器的本地触摸点数据，为物体接触和抓取提供额外的感知信息。
本体感知数据 ：利用机器人的本体感知信息（如手的姿态），增强对物体位置和姿态的理解。

感知聚合模块（Sensing Aggregation Module） ：该模块的任务是将视觉和触觉数据进行处理和融合。具体做法是：

使用UNet模型处理视觉数据（RGB和深度图像），提取外观特征。
使用PointNet++分别处理深度图像和触觉数据，提取局部和全局几何特征。
将这些特征在像素级别进行融合，得到综合的视觉特征和融合的视觉-触觉特征。

3D关键点基础的姿态估计模块（3D Keypoint-Based Pose Estimation Module） ：这一模块基于刚性物体上不同点之间的三维空间关系来进行姿态估计。通过预测物体在摄像机视角下的3D关键点，结合视觉和触觉信息，准确估计物体的6D姿态。

关键点选择 ：选定物体表面上的一些3D关键点，利用这些点的空间关系来推断物体的旋转和位移。
多任务学习 ：该模块通过多任务学习进行训练，预测物体的中心点和关键点偏移，并通过最小二乘法精确计算6D姿态参数。

仿真和真实数据结合 ：为了缩小仿真与现实之间的差距，VinT-6D通过在仿真数据（VinT-Sim）和真实数据（VinT-Real）之间进行结合来进行训练，确保模型能够在多样化的场景中表现出色。

6. 实验结果

以下是对VinT-6D数据集及VinT-Net方法的实验结果，包括在不同实验设置下的表现、与其他方法的对比以及在不同遮挡程度下的鲁棒性分析：

实验设置

实现细节 ：使用Adam优化器，初始学习率为0.01，批量大小设置为24。训练过程进行了25个epoch。超参数λ1、λ2、λ3分别设置为1、2和1。
计算资源 ：训练和测试过程在配备6块Quadro RTX 8000 GPU的计算服务器上进行，VinT-Sim的合成过程则通过一个包含16块NVIDIA P40 GPU的云计算平台进行。

评估指标

ADD (Average Distance of Vertex) ：衡量通过预测的6D姿态[R, t]转换后的物体顶点与地面真值姿态[R*, t*]转换后的物体顶点之间的平均距离。
ADD-S ：用于对称物体，计算基于最短距离的平均距离。
AUC (Area Under the Curve) ：通过改变ADD和ADD-S距离阈值，分别为非对称和对称物体计算AUC。

在VinT-6D上的评估

通过与纯粹的仿真数据、真实数据和仿真数据与真实数据结合训练的模型进行比较，结果显示，当结合了仿真和真实数据进行训练时，性能显著提高。表明，VinT-6D数据集的综合校准和仿真策略有效地缩小了仿真与真实之间的差距。

综合分析

触觉和本体感知的贡献 ：通过对触觉和本体感知在数据集中的贡献进行消融研究，结果表明，使用触觉和本体感知数据的VinT-Net相较于仅依赖视觉的基线方法，性能有显著提升。这表明，加入触觉信息对姿态估计有重要的提升作用。
与其他物体手中姿态估计方法的比较 ：通过与现有的物体手中姿态估计方法进行比较，VinT-Net在ADD-0.05d指标上明显优于最近的基于手部状态估计的姿态估计方法（如Wen et al., 2020）。在实验中，为了确保公平性，我们使用了三指手替换了原方法中的两指夹爪，这样可以减少自由度并估计“番茄汤罐”姿态。
对多指手的遮挡鲁棒性 ：为了验证VinT-Net在多指手遮挡下的鲁棒性，进行了不同遮挡程度下的实验。结果表明，在遮挡程度从20%到50%增加时，视觉基于的方法精度显著下降，从93.31%下降到80.43%；而使用多模态融合策略（结合视觉和触觉信息）的模型在遮挡增加时表现出了显著的鲁棒性，精度从94.76%降至88.81%。

7. 总结 & 未来工作

结论 :我们提出了VinT-6D，这是一个开创性的多模态数据集，用于6D物体手中姿态估计，结合了视觉、触觉和本体感知。VinT-6D包含超过200万的合成数据（VinT-Sim）和10万的真实数据（VinT-Real），专为机器人手设计，提供了高质量、良好对齐的数据，以实现精确的物体手中姿态估计。我们利用VinT-6D的基准方法展示了显著的性能提升，凸显了该数据集在弥合模拟和真实世界应用之间差距的潜力。

局限性与未来工作 :尽管我们努力缩小了sim2real的差距，但我们承认现有的VinT-6D数据集在物体和场景的多样性方面仍然不足。作为我们持续研究的一部分，我们计划在未来引入更广泛的元素和更为多样的物体手中抓取场景。此外，我们提出的VinT-Net代表了一种实例级的姿态估计方法，采用简单的融合策略进行数据集验证。这为探索类别级或零样本物体手中姿态估计提供了很大的空间，后者可能会受益于更先进的多模态融合方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿