专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
每日经济新闻  ·  DeepSeek大消息,7000亿巨头一度涨 ... ·  21 小时前  
贵州市场监管  ·  《哪吒2》登顶!用来重塑哪吒肉身的“藕粉”, ... ·  20 小时前  
贵州市场监管  ·  《哪吒2》登顶!用来重塑哪吒肉身的“藕粉”, ... ·  20 小时前  
每日豆瓣  ·  来看看全家托举我做出来的竹筒饭 ·  4 天前  
方胖子朱雀大街  ·  方大侠:你能做到我这样,那你就能大赚了! ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

你只向别人学习一次!YOLOO:多模态3D多目标跟踪新范式!

3D视觉工坊  · 公众号  ·  · 2024-09-17 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

随着LiDAR和RGB-D相机传感器等3D传感器的日益普及,3D多目标跟踪(MOT)在自动驾驶、室内机器人和无人飞行器等多个领域得到了广泛应用。与2D MOT不同,3D MOT利用3D空间信息来增强对物理环境的3D理解能力。

现有的3D MOT方法主要分为两类:单模态和多模态。这两类方法的核心在于设计良好的约束,以促进检测与轨迹之间的数据关联,最终生成3D轨迹。

单模态3D MOT方法(见图1(a))主要依赖于定制的几何对齐度量(C-GAMs),如鸟瞰图(BEV)交并比(BEV IoU)或质心距离(CD),这些度量通过定制的几何约束(C-GC)模块计算得出。然而,为了适应不同场景下不同对象类别的不同速度和大小,C-GC必须自适应地选择更合适的几何对齐度量,并针对每个类别和场景调整关联阈值。尽管这些方法有效,但仍存在鲁棒性问题,包括在拥挤、遮挡或高速运动等挑战性场景下频繁的身份切换和轨迹断裂。

为了增强鲁棒性,多模态3D MOT方法(见图1(b))将来自图像和点云的多模态表示与C-GAMs相结合,有效减少了位置相近但外观不同的错误关联。然而,获取多模态表示计算量大,通常涉及跨模态数据预处理(包括对齐、裁剪和调整大小)、使用图像和文本编码器的表示编码,以及使用融合模块的多模态表示融合。这种过程的复杂性,特别是在挑战性环境(如拥挤场景)中,阻碍了多模态方法的广泛应用,导致近年来单模态方法占据主导地位。

鉴于单模态和多模态3D MOT的上述挑战,我们提出了一个有趣的问题:是否可以在训练过程中,让特定模态的编码器学习一种统一的表示,该表示既包含其原生模态的信息,也包含其他模态的信息?通过这种方式,多模态3D MOT可以简化为在推理过程中仅使用特定模态的编码器,绕过其他模态的预处理和编码以及多模态融合,从根本上解决跟踪效率低的问题。

我们介绍了YOLOO,一种新颖的多模态3D MOT解决方案,它重新定义了传统的多模态范式。如图1(b)所示,YOLOO在训练过程中同时从点云、图像和文本线索中学习,而无需多模态融合。推理仅依赖于点云数据,从而实现高效且鲁棒的性能。因此,YOLOO获得了与ChatGPT-4V和ImageBind等多模态大型语言模型相当的跨模态学习能力。

具体来说,YOLOO包含两个核心组件:统一的三模态编码器(UTEnc)和灵活的几何约束(F-GC)模块。UTEnc集成了点云、图像和文本编码器,后两者改编自预训练的视觉-语言模型(VLMs,如CLIP)。我们新颖的统一三模态对比学习(UTCL)策略联合优化了点云编码器与点云数据以及从CLIP中提取的丰富视觉-文本表示,同时保持CLIP的参数冻结。这使得点云编码器能够同时学习点云、图像和文本线索(描述对象类别和空间位置信息)的统一三模态表示(UTR),有效地将相同对象的UTR拉近,而将不同对象的UTR推开。得到的UTR相似性为轨迹到检测的关联提供了坚实的基础。此外,为了进一步增强UTR的鲁棒性,F-GC在保留潜在候选者的同时,过滤掉语义上相似但在几何上不可信的关联。这是通过计算一个灵活的几何对齐度量(F-GAM)来实现的,该度量量化BEV视图中的归一化对象距离,与具体场景条件无关。最后,传统的数据关联模块将UTR相似性和F-GAM结合起来,以跨帧准确地将轨迹与检测相关联,生成高质量的3D轨迹。通过这些创新,YOLOO成为了一种既具有鲁棒性又具有效率的多模态3D MOT解决方案。

YOLOO为何高效?UTEnc使点云编码器在训练过程中能够从点云、图像和文本线索中学习UTR,而在推理时仅依赖点云输入。这极大地简化了跟踪流程,消除了对图像和文本模态的预处理和编码以及多模态融合的需求。此外,F-GC也通过消除对场景特定微调的需求来简化跟踪流程。

YOLOO为何鲁棒?UTR有效地融合了来自点云的丰富信息和预训练CLIP中编码的全面视觉-文本知识,为准确的轨迹到检测关联提供了鲁棒的判别线索。此外,F-GAM减轻了语义相似但空间距离较远的对象之间的错误关联,提高了关联的可靠性。

我们在KITTI和Waymo跟踪数据集上对YOLOO进行了全面的评估,与二十个竞争对手进行了比较。我们的结果一致表明YOLOO的优越性能,超过了所有竞争对手。

下面一起来阅读一下这项工作~

1. 论文信息

标题:YOLOO: You Only Learn from Others Once

作者:Lipeng Gu, Mingqiang Wei, Xuefeng Yan, Dingkun Zhu, Wei Zhao, Haoran Xie, Yong-Jin Liu

机构:Nanjing University of Aeronautics and Astronautics、Jiangsu University of Technology、Lingnan University、Tsinghua University

原文链接:https://arxiv.org/abs/2409.00618

2. 摘要

多模态3D多目标跟踪(MOT)通常需要深度神经网络(DNNs)的大量计算成本来提取多模态表示。在这篇论文中,我们提出了一个有趣的问题:我们是否可以只在训练中学习多模态以避免推理阶段的多模态输入?为了回答这个问题,我们提出了一种新的多模态3D MOT范式“textbf{YOLOO} ”:你只向别人学习一次。YOLOO使点云编码器能够从点云和其他模态(如图像和文本线索)中一次性学习统一的三模态表示(UTR)。利用这种UTR,YOLOO仅使用点云编码器即可实现高效跟踪,而不会影响其性能,从根本上消除了对计算密集型DNNs的需求。具体来说,YOLOO包括两个核心组件:一个统一的三模态编码器(UTEnc)和一个灵活的几何约束(F-GC)模块。UTEnc将点云编码器与来自预训练剪辑的图像和文本编码器相集成。它将来自CLIP的点云信息与丰富的视觉文本知识无缝融合到点云编码器中,产生高度区分的UTR,便于轨迹和检测之间的关联。此外,F-GC还会过滤掉具有相似表示但存在明显位置差异的不匹配关联。它进一步增强了UTR的鲁棒性,而不需要任何场景特定的调整,解决了定制几何约束(例如,3D IoU)的关键限制。最后,由传统的数据关联组件生成高质量的3D轨迹。通过将这些进步集成到多模态3D MOT方案中,我们的YOLOO在鲁棒性和效率方面都取得了实质性的进步。

3. 效果展示

4. 主要贡献

我们的贡献主要有三个方面:

• 我们介绍了YOLOO,一种多模态3D MOT解决方案,它在不牺牲鲁棒性的前提下优先考虑效率。它包含UTEnc和F-GC模块。

• UTEnc在多模态训练方案中从点云、图像和文本线索中学习UTR,但在推理阶段仅需求点云数据,从而实现了高效且鲁棒的3D MOT。

• F-GC计算了一个与场景无关的F-GAM,以丢弃语义上相似但几何上不可信的轨迹到检测的关联,进一步增强了UTR的鲁棒性。

5. 基本原理是啥?

为了实现卓越的性能,当前的多模态3D多目标跟踪(MOT)方法通过精心设计的复杂深度神经网络(DNN),将单模态方法与从图像和点云中提取的额外多模态表示相结合。这些表示结合定制化的几何对齐度量(C-GAM),用于建立鲁棒的跟踪约束。然而,基于DNN的特征提取引入的计算负担显著降低了效率,而C-GAM对场景特定微调的需求则阻碍了泛化能力并增加了整体流程的复杂性。这些根本性限制促使我们重新审视传统的多模态3D MOT,以(i)简化多模态表示的获取;(ii)开发更灵活的几何对齐度量,从而避免对广泛场景特定微调的需求。 推荐课程: 面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

我们引入了YOLOO,这是一种新型的多模态3D MOT解决方案,它重新定义了多模态范式(见图1(b)和图2)。YOLOO包含两个核心组件:统一的三模态编码器(UTEnc)和灵活的几何约束(F-GC)模块。此外,还集成了传统的数据关联(DA)、3D卡尔曼滤波器(KF)和生命周期管理模块。值得注意的是,UTEnc将点云编码器与从预训练的CLIP派生的图像和文本编码器相结合。通过对图像、文本线索和点云的联合训练,UTEnc将预训练CLIP中丰富的视觉-语言知识转移到点云编码器,生成统一的三模态表示(UTR),从而便于轨迹与检测之间的关联。这一创新使得在推理过程中仅依赖点云编码器即可实现高效的多模态3D MOT,开创了预训练视觉-语言模型(VLMs)在该领域的应用先河。此外,F-GC计算灵活的几何对齐度量(F-GAM),作为对具有相似表示但位置差异显著的不可信关联的补充过滤器,从而无需针对特定场景微调关联阈值。此外,DA利用UTR相似性和F-GAM有效地跨帧关联轨迹和检测,生成高质量的3D轨迹。3D KF和生命周期管理组件分别用于预测和更新3D轨迹状态,并管理其生命周期。这些进步使YOLOO成为多模态3D MOT领域的有力竞争者,因为它提高了跟踪效率和鲁棒性。

6. 实验结果

7. 总结 & 未来工作

我们引入了YOLOO,这是一种新型的多模态3D对象跟踪(MOT)解决方案,它重新定义了传统的多模态范式。YOLOO在训练过程中利用多模态信息(包括点云、图像甚至文本线索)来学习鲁棒的表示。独特之处在于,YOLOO在推理过程中仅对点云数据进行处理,与传统多模态方法相比,这显著提高了计算效率。具体而言,YOLOO包含两个核心组件:统一的三模态编码器(UTEnc)和灵活的几何约束(F-GC)模块。UTEnc通过提出的统一三模态对比学习方案,将预训练视觉-语言模型(VLMs,如CLIP)中的丰富视觉-语言表示融合到点云编码器中。这一创新使得仅使用点云编码器进行推理成为可能,从而生成用于对象相似性判别的统一三模态表示(UTR)。此外,F-GC计算灵活的几何对齐度量(F-GAM),以区分具有显著几何位置差异的对象,而无需进行场景特定的微调。利用UTR相似性和F-GAM,YOLOO能够跨帧准确地关联轨迹和检测,生成高质量的3D轨迹。我们的工作展示了预训练VLMs和文本信息在推动多模态3D MOT研究方面的变革潜力,为高效且鲁棒的解决方案铺平了道路。我们预计YOLOO将激发未来在多模态3D MOT领域的研究与开发。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文