群体活动识别(GAR)在计算机视觉领域仍具有挑战性,因为多智能体交互的复杂性。本文介绍了一种名为 LiDAR 的 LIDAR 引导的分层 Transformer ,用于多模态群体活动识别。
LiDAR 利用激光雷达数据作为结构骨架,指导视觉和文本信息处理,实现对遮挡和复杂空间布局的强健处理。
作者的框架包括一个多尺度激光 Transformer 、跨模态引导注意力以及自适应融合模块,用于在不同语义 Level 的多模态数据有效集成。
LiDAR 的分层架构捕获了从个体行为到场景级动态的多种粒度的群体活动。在 JRDB-PAR、排球和 NBA 数据集上的广泛实验表明 LiDAR 的优越性能,F1 得分在 JRDB-PAR 上提高了 10.6%,在 NBA 数据集上的平均每类准确率提高了 5.9%。
值得注意的是,在推理过程中,即使 LiDAR 数据不可用,LiDAR 仍然保持高性能,展示了其适应性。
作者的消融研究强调了每个组件的重要性和作者的多模态、多尺度方法在推进群体活动识别领域中的有效性。
1 Introduction
群体活动识别(GAR)已成为计算机视觉中的一个关键挑战,将个体行为识别与复杂场景理解之间的鸿沟弥合。近年来,该领域取得了显著的进展,方法包括层次模型[19]、演员关系图[39]以及基于 Transformer 的架构[15, 25]。然而,这些方法通常以一种受限制的方式解释群体活动,通常依赖于单一模态或独立处理多个模态,然后将融合。这种方法限制了发现更细微和多样群体互动的可能性。如图1所示,这一点得到了很好的说明。
深入研究多模态 GAR 问题,作者提出 LiDAR-Guided Hierarchical Transformer (LiGAR),这是一个全新的框架,从根本上重新想象了 GAR 的处理方式。LiGAR 的特点是能够处理和集成来自多个模态 - LiDAR、视频和文本 - 在多个尺度上的信息,捕获丰富的空间、时间和语义信息光谱。为此,作者提出一个多尺度处理 Pipeline ,作为 LiDAR 的核心,提供一种直观的建模技术,以增强对群体活动和复杂参与者动态的深入理解。
所提出的LiGAR框架在每一个 Level 上使用独特的_跨模态引导注意力机制_来共同处理多模态信息。这种策略简化了操作,并消除了单独模态特定处理流的复杂性。而不是将群体活动视为一个单一的整体,LiGAR模型将输入数据用_层次结构_来表示,促进对演员互动的全面理解。每个 Level 都能深入挖掘关键见解,利用不同尺度和模态的特征,在时间上更全面地捕捉场景变化。
此外,LiGAR 通过其自适应模态融合模块促进了动态的适应性和灵活性,使模型能够调整在不同模态上的关注点,以捕捉视频序列中的群体活动。这种适应性进一步体现在 LiGAR 能够成功地处理跨越多种场景的群体活动识别,从体育分析到监控系统,展示了其在解码各种交互细节的广泛灵活性。所提出的框架不仅限于特定领域,强调了其广泛的适用性和潜力。
本文的主要贡献可以分为以下三个方面:
LiDAR引导的多模态架构:
作者提出了一种新颖的分层 Transformer 架构,该架构利用LiDAR数据作为结构骨架来指导视觉和文本信息的处理。这包括在3.2节中介绍的多尺度LiDAR Transformer (MLT),用于创建分层场景表示,以及在3.4节中介绍的跨模态引导关注(CMGA)机制。这种创新方法使得处理复杂的空间布局和遮挡更为强大,显著增强了模型解释细腻的群体活动的能力。
适应多模态融合与层次解码:
作者在第3.5节中提出了一个基于TimeSformer的适应性融合模块(AFM),该模块动态地将LiDAR、视觉和文本模态集成,同时建模时间依赖性。这与第3.6节中描述的层次活动解码器相结合,该解码器从单个动作到场景级动态预测多个粒度的活动。这些组件使LiGAR能够适应地在视频序列的不同模态和尺度上聚焦,捕获群体互动的全光谱。
综合评价:
通过在多种基准数据集上的广泛实验,包括JRDB-PAR [17]、Volleyball [19]和NBA [42],作者证明了LiGAR在多模态群体活动识别方面的优越性。
作者的结果表明,与最先进的方法相比,LiGAR在JRDB-PAR上的F1得分提高了10.6%,在NBA数据集上的平均每类准确率提高了5.9%。值得注意的是,当推理时LiDAR数据不可用时,LiGAR仍然保持高性能,展示了其适应性和在各个应用领域的广泛影响力。
作者的工作在GAR领域中取得了最先进的状态,并开辟了利用多模态、多尺度信息在各种计算机视觉任务中的新途径。LiGAR框架在推理时即使没有LiDAR数据也能有效执行的能力,凸显了其适应性及其在各个应用领域产生广泛影响的潜力。
2 Related Work
Group Activity Recognition
群体活动识别已成为计算机视觉领域的一个重要研究领域,其应用涵盖了各种领域。典型的GAR范式涉及分析视频片段以预测群体活动标签,通常需要理解个体行为及其集体影响。
早期GAR方法依赖于手工设计的特征和传统机器学习模型,如随机森林。深度学习的出现改变了这一局面,引入了利用多级RNN架构捕捉个体和交互特征的方法。
近年来,生成对抗网络(GAN)的进步主要集中在关系学习上,采用了复杂的深度学习技术。图神经网络和注意力架构[15, 16]已经变得普遍,使得对演员之间关系进行更细微的建模成为可能。这些方法通常涉及使用技术提取人类 Level 的特征,如RoIPooling [30]或RoIAlign [34],然后在这些提取的特征上进行关系学习。
Hierarchical and Multi-modal Approaches in GAR
识别群体活动的复杂性,研究行人既研究了层次方法,也研究了多模态方法,以提高GAR性能。层次方法旨在捕获不同语义层面的活动,而多模态方法则利用多种数据来源进行更丰富的表示。
一些研究已经探索了GAR(群体活动识别)中的层次结构。[19] 提出了一种层次LSTM模型来捕捉个体、组和场景 Level 的活动。 [18] 引入了一种多尺度时间CNN来处理各种时间分辨率的活动。近年来, Transformer 架构已经被用于多级活动识别。 [9] 利用层次 Transformer 来模拟不同语义 Level 之间的长期依赖关系。
同时,多模态方法在解决单模态方法的局限性方面取得了进展。[31] 结合了RGB视频和深度信息,以提高复杂场景中的活动识别。对作者来说,几项最近的研究探索了将LiDAR数据集成到活动识别任务中的可能性。Sun等人[33]使用LiDAR点云来增强3D人体姿态估计,以提高动作识别,而Jiao等人[21]提出了一种融合网络,将RGB和LiDAR模态的特征结合起来,以实现强大的活动分类。Chappa[3]引入了一个使用RGB和文本输入的多模态框架,以在场景中执行群体活动识别和定位动作。
尽管取得了这些进展,将层次建模与真正多模态方法相结合的研究仍然 largely 未探索。许多现有方法要么专注于单个模态内的层次结构,要么采用后期融合策略处理多模态数据,可能会错过不同语义水平之间的关键间模态关系。此外,将文本数据与视觉和 LiDAR 信息一起在层次框架中集成到 GAR 中仍然是一个开放挑战。
3 Methodology
Overview
如图2所示,LiDAR框架通过利用LIDAR、视频和文本数据的优点,提出了一种新颖的多模态群体活动识别方法。作者的方法在 Pipeline 中处理信息,支持多个尺度,从而实现对各种粒度下群体活动的丰富理解。
作者的方法的关键创新包括:
1.) 多尺度处理LIDAR数据,以在不同分辨率下捕捉空间信息。
2.) 使用LIDAR特征的跨模态引导注意力机制,以增强视频和文本表示。
3.) 使用TimeSformer进行模式的适应性融合,允许对信息源进行动态加权。
4.) 具有层次解码器的预测模型,可以预测场景、组和个体 Level 的活动。
以下子节详细介绍了每个框架组件,解释了作者的设计选择背后的直觉,并说明它们如何有助于有效群体活动识别。
Multi-Scale LiDAR Processing
激光雷达数据为作者提供了宝贵的3D空间信息,这可以显著增强作者对群体活动理解。为了充分利用这些信息,作者对不同尺度的激光雷达点云进行处理,捕捉到细粒度的细节和更广阔的空间背景。
3.2.1 Multi-Scale LiDAR Transformer (MLT)
MLT处理在不同尺度的点云,创建层次化的场景表示。对于每个尺度k,作者执行以下操作:
在这里,FPS
是 farthest point sampling 操作,它选择一组点来表示场景在尺度
下的缩放。SA
是来自 PointNet++ [29] 的一组抽象层,它聚合局部特征。TransformerEncoder 然后处理这些特征,捕捉复杂的空间关系。
这多尺度方法使得作者的模型能够同时捕捉到细粒度的相互作用和更广泛的空间布局(例如,群体形成)。
3.2.2 LiDAR Feature Extractor (LFE)
为了进一步优化LIDAR表示用于活动识别,作者提出了一种LIDAR特征提取器:
LFE利用了针对不同粒度 Level 群体活动的空间-时间模式进行缩放特定的注意力机制,使作者的模型可以从丰富的LIDAR数据中学习与活动识别相关的特征。
Multi-modal Feature Extraction
尽管LIDAR数据提供了有价值的空间信息,但视频和文本模态提供了对全面活动识别至关重要的重要互补线索。作者在多个尺度上处理这些模态,以保持与作者的LIDAR处理管线的一致性。
3.3.1 Video Feature Extractor (VFE)
对于视频数据,作者采用了一个金字塔结构的3D卷积神经网络,随后是针对不同尺度的时间注意力机制:
采用多尺度方法,作者能够捕捉到视频数据中的精细运动模式和更广泛的时间背景。
3.3.2 Text Feature Extractor (TFE)
为了处理文本描述,作者使用一个多级语言模型,该模型既捕获了细微的语义信息,也捕获了高层次的概念:
层次化文本处理使得作者的模型能够理解文本中特定描述的动作,以及总体主题或背景。
Cross-Modal Guided Attention (CMGA)
作者的框架中的一个关键创新是利用LIDAR信息引导视频和文本数据的处理。这种跨模态注意力机制使作者能够利用LIDAR提供的精确空间信息来增强对视觉和文本输入的理解。
对于每个尺度
的视觉域:
同样,在文本领域:
该机制使模型能够在LIDAR数据捕获到的空间配置下,专注于视频或文本中最相关的部分。例如,它可能有助于模型在LIDAR数据表明有人存在的区域,更加关注视觉特征。
Adaptive Fusion Module (AFM)
为了有效地结合来自三个模态(LiDAR、视觉和深度)的信息,作者引入了一种基于TimeSformer的Adaptive Fusion Module(AFM)[2]。这使得作者的模型能够根据当前上下文动态地调整每个模态的重要性,同时建模跨帧的时间依赖性。AFM在多个尺度上运行,以捕捉细粒度和粗粒度的特征。对于每个尺度k,作者首先将所有模态的特征拼接在一起:
代表50iDAR 特征,
代表视觉特征,
代表深度特征在尺度
处的信息。当前时间步
的 ConCat 特征
融合了所有模态的信息。然后,作者使用视频理解中的基于 Transformer 的架构 TimeSformer 对这个 ConCat 特征进行处理:
时间自注意力机制在时空域内捕获多模态数据中的复杂时空关系。每个尺度的输出
编码了这些关系。然后,TimeSformer 的输出用于计算每个模态的适应性权重:
在这里,
是一个多层感知机,将 TimeSformer 的输出映射到三维向量(每个模态一个维度)。softmax 函数确保权重和为 1,使作者能够将其解释为每个模态的相对重要性。然后,这些权重用于将模态进行融合:
这一加权求和允许模型动态地强调每个特定实例中最有信息量的模态,并调整大小。最终的融合表示将来自所有尺度的信息组合在一起:
通过将所有尺度的融合特征拼接在一起,作者得到了一个多尺度的表示,它既捕捉到了细粒度的细节,也捕捉到了更高层次的结构。这种自适应融合机制增强了作者的模型在不同场景下的鲁棒性。