本文提出APGCC模型,用以改善传统基于点的人群计数在学习过程中的不稳定问题。通过引入辅助点和精确的特征表示方法,APGCC大大提升了模型优化过程中区分正负样本的能力,同时增强了在各种复杂场景下计数准确性和定位的精度。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
组织机构:台湾大学, UC Merced, Google
论文:
https://arxiv.org/abs/2405.10589
主页:
https://apgcc.github.io/
簡介:
人群计数与定位(Crowd Counting and Localization)
是一种计算机视觉技术,用于估算图像或视频中的人数,并确定他们的精确位置,可应用于监控、事件管理和城市规划等重要领域。其中,基于点的人群计数(Point-based Crowd Counting) 可直接透过点标签(Point Annotation) 进行回归和预测学习,而不是依赖密度图(Density Map)和边界框(Bounding Box)等伪标签资讯。该方法在处理不同密度的人群和遮挡方面表现出色,提供了更高的准确性和精确性。然而,传统基于点的人群计数方法在训练过程仅依赖匹配策略进行训练,
不稳定的匹配结果将导致训练目标不一致
,不仅
容易选择偏远的点提案
(Point Proposal),更容易导致复杂区域产生高估或低估等现象(线条表示Proposal到预测点的可视化):
因此,本论文的目的在于提升点预测方法训练时的鲁棒性。我们提出了APGCC的模型,通过引入辅助点指导(Auxiliary Point Guidance, APG)来解决不稳定性的问题,使优化过程能够更加有效地区分潜在的正负匹配点,从而提高模型的鲁棒性和准确性,同时不产生额外的推理运算资源。
方法:
Overview of APGCC
上图显示了大致的训练流程,除了传统基于点的人群计数方法的Point Proposal预测、Proposal-Target匹配和损失函数计算外(红、灰色点表示),我们还提出了辅助点指导策略(Auxiliary Point Guidance, APG),以优化训练稳定度(蓝、绿色点表示)。此外,在解码的过程中引入了隐式特征插值(Implicit Feature Interpolation, IFI)模块,使模型能精确地获取任意点的特征表示,从而提升定位准确性和鲁棒性。整体训练过程包括以下步驟:
-
特征提取
:使用预训练好的骨干网络(如VGG-16)提取影像特征。
-
多尺度特征融合
:通过金字塔池化(ASPP)整合多尺度特征。
-
隐式特征插值
:使用IFI模块解码过程计算所有位置的响应特征Fproposal。
-
置信度和偏移量预测
:将每个独立的Fproposal输入置信(Confidence)和回归(Offset)模块,得到每个预测点的置信度和偏移量。
-
匹配与损失计算
:使用匈牙利算法(Hungarian algorithm)进行Proposal-Target匹配,并针对每个点计算MSE点回归和Cross Entropy损失。然而,仅依赖匹配策略进行学习容易导致优化过程不稳定。因此,我们引入了APG模块,为模型提供明确的学习目标,从而提高稳定性和准确性。
Auxiliary Point Guidance (APG)
APG模块旨在通过引入辅助点来增强基于点的人群计数和定位方法的稳定性和准确性。这一策略可以分为两部分:
-
正辅助点(Auxiliary Positive Points):
-
这些辅助点由真实标签点加上些微空间噪声产生于每个真实标签点附近。
-
-
通过确保正辅助点的置信度接近1和位置预测接近对应真实标签点,使模型倾向于选择最近点,提高定位精度和置信度。
-
负辅助点(Auxiliary Negative Points):
-
-
-
负辅助点的置信度和偏差应尽可能接近0,避免负匹配点邻近于匹配点,从而提高匹配过程的稳定性。
Implicit Feature Interpolation (IFI)
为了在任意位置有效插入辅助点并增强特征座标与真实座标之间的对齐,我们提出了隐式特征插值(Implicit Feature Interpolation)。IFI的具体步骤包括:
-
邻近特征提取
:找寻目标座标的四个邻近特征向量,以及各自对应的空间距离和位置编码信息。
-
特征转换
:将这些信息共同输入到多层感知机(MLP)进行连续特征转换。
-
特征合并
:通过插值方法合并四项参考特征以得到最终特征表示。通过在特征空间进行连续性转换,模型能够更好地捕捉场景中的细微差异,从而提高整体预测能力。
实验结果:
此篇论文做了许多实验来证明其有效性。
人群计数量化比较(Crowd Counting Quantitative Comparison)
论文在多个数据集上进行了测试,包括SHHA、SHHB、UCF-QNRF和JHU-Crowd++数据集。
此外,论文还在UCF_CC_50和NWPU Testing Set数据集上进行了测试。
从以上结果得知,AGPCC方法能有在不同密度和复杂场景下表现得更加稳定和鲁棒,能有效区分正负预测点,提高整体性能。
人群定位量化比较(Crowd Localization Quantitative Comparison)
论文还进行了人群定位的量化比较实验,主要在NWPU Testing Set和SHHA数据集上进行测试。
由以上结果分析,与其他现有基于点的人群际数方法相比,APGCC框架通过正辅助点指导回归预测以及IFI增强特征表示,达到更精确地定位人群中独立个体的效果。
可视化结果分析(Qualitative Analysis)
上述结果清楚显示了使用APG策略可以更有效的引导模型选择邻近点作为预测对象,这一策略有效地减少了预测误差,提高了模型在复杂场景中的表现。
消融实验(Ablation Study)
APG策略有效性分析 & IFI模块有效性分析。
从消融实验结果中可以得到以下结论:
-
APG策略:直接匹配邻近点可能导致低估,Matcher用于训练模型学习置信度,而APG提供成对正负样本,弥补直接匹配策略的不足。因此,Matcher + APG组合策略在提供明确训练目标和有效判别正负预测点方面达到最佳表现。
-
IFI模块:结合了插值的优势,通过空间距离信息和MLP实现特征空间中的连续性转换,显著增强了任意位置的特征表示,提高了模型整体性能。