0.这篇文章干了啥?
这篇文章提出了一种新颖的方法来在几何场景图中进行物体检测和跟踪,并将其与语义后端系统结合,实现空间推理。系统通过Tiago机器人、ASUS Xtion相机、NVIDIA Jetson Orin NX和Velodyne VLP-16传感器来采集数据,并利用高分辨率激光扫描仪构建环境的静态地图。物体检测和跟踪通过YOLOv8s模型进行,结合Rmagine库来创建和更新3D几何场景图,以优化姿态估计和跟踪精度。实验结果显示,该系统在Jetson板上实现了每秒1.8帧的处理速度,并计划未来通过GPU加速来提高性能。文章还计划在不同的6D姿态估计和跟踪基准数据集上进行进一步评估,并探索如何利用相同的加速结构实现时空语义查询和实时系统中的时序推理。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Mesh-based Object Tracking for Dynamic Semantic 3D Scene Graphs via Ray Tracing
作者:Lennart Niecksch, Alexander Mock等
作者机构:German Research Centre for Artificial Intelligence等
论文链接:https://arxiv.org/pdf/2408.04979
2. 摘要
本文提出了一种新颖的3D几何场景图生成方法,使用范围传感器和RGB相机。我们首先利用YOLOv8s模型检测实例级关键点,通过求解PnP来计算已知对象的6D姿态估计。我们使用射线追踪方法跟踪由对象实例的网格模型组成的几何场景图。与传统的点对点匹配方法相比,这种方法在对象实例之间出现遮挡时能够提供更为稳健的结果。我们展示了这种混合策略可以实现稳健的自我定位、范围传感器数据的预分割以及使用相同环境表示进行的准确姿态跟踪。所有检测到的对象都被整合到一个语义场景图中。该场景图随后作为语义映射框架的前端,以支持空间推理。推荐学习:
零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]
。
3. 效果展示
a场景和检测到的关键点和框。B初始姿态估计(绿色)和光线跟踪对应(紫色)。c对象实例的精确姿态(蓝色)。
4. 主要贡献
几何场景图中的对象检测与跟踪方法
:我们提出了一种在几何场景图中检测和跟踪对象的方法,并将其与语义后端相连接,实现了空间推理。这种方法可以有效地跟踪动态对象,并减少计算开销。
前端与语义后端的连接
:通过将几何前端与语义后端集成,我们实现了基于几何和语义信息的时空推理。这种连接使得系统能够进行更深入的空间分析和决策。
高效的实时跟踪
:我们的方法在Jetson板上实现了1.8 Hz的跟踪速度,并且能够在全分辨率网格模型上进行高效的光线追踪计算。即使在没有进一步优化的情况下,该方法的运行速度仍符合BOP Challenge的标准,表现出良好的实时性能。
优化和加速
:通过将YOLO模型导出为TensorRT引擎,我们将图像推理时间减少到15毫秒。进一步的优化计划包括量化和使用Rmagine的GPU加速后端,以提高光线追踪的性能。
时空语义查询的未来方向
:未来工作将集中于利用相同的加速结构和表示高效实现时空语义查询。这将支持构建和更新分层语义场景图,并在实时系统中进行时序推理,从而提高系统的灵活性和适应性。
5. 基本原理是啥?
几何场景图生成
:利用高分辨率激光扫描仪捕获环境中的静态部分,并使用LVR2工具重建三角网格。结合动态对象的几何信息,生成一个几何场景图,这个场景图在实时系统中用于机器人定位和动态对象姿态跟踪。
对象检测与初始姿态估计
:使用YOLOv8s模型预测图像中检测到的物体的边界框的角点和中心点,估计物体的6D姿态。这个过程依赖于2D图像数据,通过最小化已知对应点的重投影误差来完成姿态估计。
光线追踪与优化
:为了提高姿态估计的精度,通过光线追踪算法将传感器数据与模拟数据进行比对,优化物体的姿态估计。使用Rmagine库中的Embree后端进行光线追踪计算,处理每个物体实例的几何信息,进行姿态修正。
时空语义推理
:将检测到和跟踪到的对象输入到SEMAP框架中进行基于实例的空间推理。通过将几何信息与语义背景知识连接,支持构建层次化的语义场景图,并进行实时的空间和时间推理。
实时性能与优化
:在Jetson板上运行的系统能够在每帧图像中进行4次光线追踪,使用YOLOv8s进行实时物体检测。通过进一步优化和加速,计划提高光线追踪的性能,以支持更高效的实时操作。
6. 实验结果
在本文的实验中,主要测试了系统在边缘设备上的性能,以确保实时操作和低计算开销。以下是主要的实验结果:
测量与数据处理
:
-
使用Velodyne LiDAR获取了1824x16的测量数据,并用Asus Xtion相机获取了640x480的RGB-D图像,共计336,384个测量点。
-
静态场景部分由411,698个三角形和相应的411,698个顶点构成,覆盖了2986.6平方米的面积。
YOLO模型的推理时间
:
-
将YOLO模型导出为TensorRT引擎后,在Jetson板上实现了每帧图像的平均推理时间为15毫秒,但这消耗了大部分GPU资源。
-
进一步优化包括量化,使得可以利用板上的深度学习加速器(DLA),从而加快推理时间并释放GPU资源。
场景图的处理速度
:
-
在Jetson上进行的初步概念验证实现了每秒1.8帧的处理速度,处理过程包括对每帧的全分辨率网格模型进行4次光线追踪(如表I所示),每个物体实例进行10次Umeyama优化。
-
尽管当前的光线追踪实现主要依赖于Rmagine的Embree后端运行在CPU上,但这一实现仍被视为满足BOP Challenge的速度要求,即每帧处理时间少于1秒。
性能优化计划
:
-
计划使用Rmagine的OptiX后端或支持SYCL的Embree来显著提升光线追踪的性能,从而提高整体系统的效率。
这些结果表明,系统能够在边缘设备上实现有效的实时物体跟踪和姿态估计,尽管还存在进一步优化的空间。
7. 总结 & 未来工作
本文提出了一种在几何场景图中检测和跟踪对象的方法。我们将这一前端方法与语义后端连接起来,以实现空间推理。总体而言,该方法提供了良好的自然跟踪结果,并预计在跟踪多个对象时显著降低计算成本。这种效果将在切换到Rmagine的GPU加速后端时进一步增强。未来的工作将集中于高效实现基于相同加速结构和表示的时空语义查询,这将允许构建和更新分层语义场景图,并在实时系统中进行时序推理。此外,我们计划在不同的6D姿态估计和跟踪基准数据集上评估我们提出的方法,并使用不同的初始姿态估计器进行测试。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球