专栏名称: 点云PCL

公众号将会推送基于PCL库的点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群，而且组建github组群，有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。

Kalib：基于特征点跟踪的无标记物手眼标定

点云PCL · 公众号 · 科技自媒体 · 2024-09-13 08:00

主要观点总结

本文介绍了Kalib：一种无标记手眼校准方法，通过关键点跟踪实现自动且通用的校准流程。文章包括方法的关键点、实验与结果、总结等。

关键观点总结

关键观点1: 提出Kalib方法

Kalib是一种自动、无标记的手眼校准流程，利用视觉基础模型进行关键点跟踪，无需重新训练网络或访问网格模型。

关键观点2: 主要贡献

提出了利用机器人上的参考点（如TCP）进行手眼校准的方法，通过跟踪预定义参考点的位置解决手眼校准问题。在模拟环境和真实世界数据集上的评估表明，该方法具有较高的精度。

关键观点3: 手眼校准流程简化

通过简化设置并消除对精确物理标记的依赖，为各种机器人系统提供了一种有效且灵活的校准流程。

关键观点4:

在仿真环境和真实世界数据集上的实验结果表明，Kalib方法在平移误差和旋转误差方面优于基准方法，具有较高的精度和实用性。

正文

文章：Kalib: Markerless Hand-Eye Calibration with Keypoint Tracking

作者：Tutian Tang , Minghao Liu , Wenqiang Xu and Cewu Lu

编辑：点云PCL

代码：https://github.com/Learner209/Kalib.git

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系[email protected]。 文章未申请原创 ， 侵权或转载 联系微信cloudpoint9527。

摘要

手眼校准涉及估计相机与机器人之间的转换关系。传统方法依赖基准标记，需要大量的人工操作和精细的设置。最近深度学习的进展提供了无标记的技术，但也带来了挑战，包括需要为每个机器人重新训练网络、需要精确的网格模型来生成数据，以及需要解决仿真与现实的差异。本文提出了 Kalib，这是一种自动且通用的无标记手眼校准流程，利用视觉基础模型的广泛适应性来消除这些障碍。在每次校准过程中，Kalib 使用关键点跟踪和本体感知传感器来估计机器人坐标空间与相机空间中相应点之间的转换关系。该方法不需要重新训练网络或访问网格模型，通过在模拟环境和真实世界数据集 DROID 中的评估，Kalib 展现出相较于最新基准方法更高的精度。该方法通过简化设置并消除对精确物理标记的依赖，为各种机器人系统提供了一种有效且灵活的校准流程。

图 1. 所提出的方法通过利用现有的视觉基础模型跟踪预定义参考点的位置来解决手眼校准问题。

主要贡献

本文提出了 Kalib，这是一种通用、自动且无标记的手眼校准流程。在每次校准过程中，我们在机器人上定义一个参考点，并让它在工作空间中移动。通过使用现成的关键点跟踪基础模型和集成在机器人中的本体感知传感器，我们获取了参考点在图像帧中的 2D 坐标及其在机器人空间中的 3D 坐标。最终，通过一个 Perspective-n-Point (PnP) 解算器估算相机到机器人的转换矩阵。

所提出的方法可以在常见的机器人手臂和夹具上工作，无需训练任何网络，从而消除了对机器人精确网格模型的需求，主要的贡献是 Kalib 方法，用于无标记的手眼校准。为了评估我们的方法，我们首先在 RFUniverse构建的模拟环境中测试其精度。结果表明，平移误差和旋转误差平均分别约为 0.3 厘米和 0.4 度，优于最近的基准方法 EasyHeC，并与基于标记的传统方法相当。还在 DROID数据集上进行了大量实验，该数据集是一个大规模的真实世界机器人操作数据集。结果表明，我们的方法优于基准方法，其无标记特性使其在传统方法构建数据集时产生显著误差时，能够作为一种补救措施。

内容图集

概述

给定机器人的运动学和相机的内参，手眼校准的任务是估算相机系统 A 和机器人系统 B 之间的转换矩阵 X，满足 AX = XB。在本文中，内参表示为 3×3 的内参矩阵 K，转换矩阵 X 表示为 4×4 的矩阵 T ∈ SE(3)。进一步细分，根据不同场景，相机要么以固定转换矩阵 TCB 安装在机器人基座上（眼在基座设置），要么以固定转换矩阵 TCE 安装在末端执行器上（眼在手上设置）。需要注意的是，这两种设置本质上是对偶的，因为基座和末端执行器之间的转换矩阵 TBE 可以通过正向运动学推导出来，且每一帧都满足 T^CE = T^CB*T^BE 。图 2 展示了该方法的流程。

图2.给定连续的 N 个相机帧，首先使用基础模型在图像平面上跟踪参考点。同时机器人的关节位置通过本体感知传感器记录。参考点在机器人基座坐标系中的坐标可以通过正向运动学推导出来。最后PnP 模块可以估算相机到机器人的转换矩阵。

跟踪目标的选择

选择合适的跟踪目标对于成功完成手眼校准至关重要。在选择过程中，作者列出了三个关键条件，解释了为什么这些条件对跟踪精度有重要影响：

条件一：关节点在运动学模型中的位置可知

为了确保能够在机器人坐标系中精确定位关键点，它必须是机器人运动学模型中的一个关节点。通过本体感知传感器，这些关节点的位置可以被精确确定并计算出其 3D 坐标。因此，跟踪的目标点需要是机器人已知的运动学模型中的一个点。

条件二：视野不受遮挡

机器人运动过程中，关键点应在相机视野中保持清晰可见，且不被遮挡。这样能够确保在整个跟踪过程中，关键点在相机图像中的 2D 位置可以持续被准确检测到。

条件三：有明确的视觉特征

跟踪点应该对应机器人表面上的一个具有明显视觉特征的部分，这样跟踪算法能够精准地锁定目标点。然而，作者指出，许多流行的机器人手臂关节点通常位于机器人的内部，因此它们在相机视角下的投影位置会发生变化。这种变化可能导致跟踪误差，因为外部视觉特征无法与内部关节点很好地匹配。

鉴于大多数关节点不满足这些条件，作者选择了工具中心点（TCP）作为跟踪目标。TCP 通常在平行夹具的末端定义为闭合时手指的尖端。它具备：

是一个明确的运动学模型关节点；
在相机视野中通常不被遮挡；
拥有明确的视觉特征。

因此，TCP 成为最佳的跟踪目标。

相机姿态估计

相机姿态估计这一部分介绍了如何通过Perspective-n-Point (PnP)方法估计相机在机器人坐标系中的姿态。

数据获取与3D坐标计算：在每次校准过程中，记录机器人每一帧的关节位置。通过前向运动学，计算参考点在机器人基座坐标系中的3D坐标。
PnP问题求解相机姿态：基于相机模型，图像中的2D像素点与机器人基座坐标系中的3D坐标遵循一个矩阵方程。通过PnP问题求解相机到机器人基座的转换矩阵 TCB。为提高精度，使用更多帧的数据点。此外，为避免PnP求解中的已知问题，关键点应尽可能遍布整个3D工作空间。实现过程中，采用了Efficient PnP (EPnP)算法并结合RANSAC方案，以减少噪声和异常点的影响。

实验与结果

在仿真环境和公开的真实世界数据集上评估了所提出的方法，主要分析了关键点跟踪和手眼校准的准确性，并将结果与DREAM、EasyHeC和传统的基于标记物的方法进行了对比。

图 3. 定性结果。第一行展示了使用我们的方法将机器人遮罩投影到相机画面上的效果，标记为红色。第二行展示了我们的方法与传统方法（左侧）以及EasyHeC（右侧）的比较。绿色遮罩来自传统方法，蓝色遮罩来自EasyHeC。

实验设置

仿真环境评估：使用RFUniverse仿真器构建了仿真环境，并采用Franka Emika机器人进行测试。在Eye-on-base设置中，虚拟相机随机放置并指向机器人；在Eye-in-hand设置中，虚拟相机安装在机器人的末端执行器上。通过记录视频段，比较跟踪与校准结果与真实值的误差。
真实数据集评估：选用DROID数据集中的60个视频段对方法进行评估，采用与传统基于标记物的校准结果进行比较，并通过重投影误差间接评估校准精度。

图 4. 仿真中跟踪误差与帧数的关系

关键点跟踪结果

在仿真环境中评估了跟踪模块的零样本能力。结果显示，跟踪误差迅速收敛，保持在±10像素以内，表明所提出的视觉基础模型能够准确地跟踪手眼校准过程中的关键点位置。

手眼校准结果

仿真环境评估：在仿真环境中，所提出的方法在精度上显著优于基准方法，尤其是在z轴上的误差更小。此外，该方法的计算时间约为2分钟，远快于EasyHeC的15分钟。
真实数据集评估：在真实世界数据集中，通过IoU评估校准精度，所提出的方法取得了0.80的平均IoU，超过了EasyHeC的0.77，但略低于传统方法的0.87。

图 5. 视频时长与平移和旋转误差的关系

图 6. 不同关键点候选的欧几里得距离预测误差，其中TCP的跟踪误差最低且最稳定。注意y轴采用对数刻度。

图 7. 敏感性分析。平移误差随着噪声增大而增加

总结

本文提出了Kalib，这是一种自动的无标记手眼校准管道，利用视觉基础模型进行关键点跟踪。Kalib的优点在于其对新设置的适应性，无需训练任何神经网络，也不需要校准板或机器人的精确3D网格模型。结果显示，所提出的方法优于基准方法，并突出了其在实际场景中（如数据集构建）的潜在应用。然而，所提出的方法仍然受到常见视觉系统缺陷的影响。例如，当背景过于嘈杂、要跟踪的参考点过小或因环境光线不足而发生运动模糊时，跟踪模块可能会失去跟踪。未来的工作可以集中在提高整个管道的精度和泛化能力上。例如，所提出的方法可以直接受益于关键点跟踪技术的未来进展，以在上述复杂条件下表现得更好。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位