视频异常检测(VAD)系统广泛应用于监控、安防、交通管理等领域,能够自动识别异常事件,如暴力行为、交通事故等,从而减少人工干预、提高效率。在大模型时代,随着大规模预训练模型,尤其是视觉语言模型(VLM)的发展,VAD 的智能化水平得到了显著提升。
然而,现有 VAD 技术仍面临挑战。当前系统多依赖传统特征提取方法,
对场景的语义理解有限
,难以识别复杂或不规则的异常行为。同时,现有的标注
数据稀缺
,限制了 VAD 在开放世界场景中的应用,这些场景中异常行为千差万别,现有模型难以应对未见过的新型异常,并缺乏足够的自适应能力。
针对上述挑战,本研究提出了
Hawk
,一个面向开放世界的视频理解和异常检测框架。HAWK 通过识别异常视频和正常视频之间的运动信息差异,显式地
整合了运动模态
以增强异常识别。为了加强运动信息的关注,Hawk 在运动和视频空间中构建了一个
辅助一致性损失
,指导视频分支集中在运动模态上。
此外,为了提升运动与语言之间的解释能力,Hawk 建立了
运动及其语言表示之间的明确监督关系
。此外,本研究标注了超过 8,000 个异常视频及其语言描述,支持在多样的开放世界场景中进行有效训练,并创建了 8,000 对问答对,以帮助用户处理开放世界中的问题。
实验结果表明,HAWK 在视频描述生成和问答任务中均超越了现有的 VAD 基准。
论文标题:
Hawk: Learning to Understand Open-World Video Anomalies
论文链接:
https://openreview.net/pdf?id=vBKoEZ1PG3
Demo链接:
https://huggingface.co/spaces/Jiaqi-hkust/hawk
模型链接:
https://huggingface.co/Jiaqi-hkust/hawk
数据集链接:
https://huggingface.co/datasets/Jiaqi-hkust/hawk
代码链接:
https://github.com/jqtangust/hawk
引言
▲ 图1:在 VAD 中不同的架构
(A)是传统的 VAD,他使用一个二分类器来检测异常;
(B)是使用多分类器整合语义信息来给出对不同类型的异常信息,
仅限于检测异常帧
(C)是之前的视频理解框架,可以交互式的为用户提供丰富的语义信息(但
更多关注的是长距离上下文信息,而不是异常信息
),但是不能准确定位异常(因为主要依赖伪标签)
(D)为本文提出的方法,提高了异常理解能力,并
使用带有丰富语义信息的注释标签来训练
1.1 问题
-
如图 1(A)所示,对场景的语义理解较浅,用户交互不足。
-
如图 1(B)所示,仅限于检测异常帧,仍需进一步手动分析来理解异常。
-
如图 1(C)所示,主要依赖于伪标签进行训练,更多关注长距离上下文信息,而不是与异常相关特征。
1.2 方法
HAWK 是一个交互式 VLM(interactive large visual-language model),用于精确理解视频异常,如图 1(D)所示。
-
正常视频和异常视频中的运动差异显著。
通过双分支框架显式集成运动模态,以增强对异常的理解(3.1)。
-
增强运动注意力。
基于原始视频(外观特征)和其运动之间的互信息,在紧空间中构建了一个辅助一致性损失(3.2)隐式引导视频分支关注运动相关特征。
-
增强运动与相应语言的解释。
从原始描述中提取与运动相关的语言(动词及其实体),以监督运动的视觉和语言表示(3.3)。
1.3 数据集
本研究采集了来自不同场景的七个视频异常数据集,
并为每个视频生成了语言描述
。
此外,为了应对用户提出的开放式问题,本研究
利用视频的语言描述生成潜在的 QA 对
进行训练。
由于这些数据集涵盖了多个场景,包括犯罪(UCF-Crime)、校园环境(ShanghaiTech 和 CUHK Avenue)、人行道(UCSD Ped1 和 Ped2)、交通情况(DoTA)以及人类行为(UBnormal),因此,该模型能够有效地泛化到开放世界场景中。
1.4 贡献
-
一个创新的视频-语言框架 HAWK,旨在理解视频异常,并引入
运动模态
来增强其视频理解语义能力。
-
为
七个不同的视频异常数据集
生成了丰富的语言描述。同时,考虑到开放世界问题的多样性,同时生成了
问答对
,以应对潜在的用户 QA。
-
在多个场景中展示了 SOTA 的表现,既能进行视频异常理解,又能进行问答任务。
数据工程
▲ 图2:数据集生成的流程。
(第一行)首先将视频分割为片段密集片段并生成描述,然后通过将“描述+prompt” 输入给 GPT4 来生成与异常视频相关的描述,并且要人工检查出错误的。
(第二行)将”两个原则 +prompt” 输入给 GPT4 来生成问题,并通过人工选出最合适的 100 个问题,将他们随机分给不同的视频,然后将上面的”描述 + 问题 + prompt” 输入给 GPT4 来生成答案。
2.1 原理
2.1.1 语言描述
对 7 个数据集进行详细的语言描述标注,涵盖了多种异常场景:
2.1.2 开放性问题
为
每种场景构建了开放式的 QA 对
,进一步增强模型对用户各种问题的实际回答能力。过程如图 2 所示。数据格式如下:
2.2 异常视频描述生成流程
-
首先将视频拆分为
密集的片段
,确保捕捉到关键信息
-
使用感知工具(InternVideo、Tag2Text、GRiT)
自动生成每个片段的描述
(UCF-Crime 本身就有)
-
将描述 + prompt(生成与视频异常相关的具体描述)给 GPT-4 来为每个视频生成
与异常相关的描述
-
人工
检查不准确的标注
2.3 以人为中心的 QA 对生成
虽然已经获得准确的异常视频描述。但仍可能面临用户提出的更开放性问题的挑战。
2.3.1 两个原则
2.3.2 流程
-
将“两个原则 + prompt” 输入 GPT-4 来生成异常视频的开放性问题
-
人工选择出最合适的 100 个问题,随机分配给每个视频
-
将“问题 + prompt” 输入 GPT-4 来为
生成
方法
图3:Hawk 的总览
在训练过程中,旨在优化 3 个损失:
(1)原始视频到语言匹配损失,为了生成一般性的语言描述
(2)原始视频到运动一致性损失,为了让原始视频更关注与运动相关的
(3)运动到语言匹配损失,为了让模型更好的描述运动
3.1 显式集成运动模态
HAWK 专门
集成了运动模态
,采用架构相同但权重独立的双分支结构集成视频和运动信息,形成视觉标记嵌入。最终,通过结合视觉标记嵌入
和文本嵌入
,输入给 LLaMA-2 来生成最后的响应
,整体推理过程如下:
-
表示用于提取外观特征的
-
表示用于提取运动特征的
表示运动提取器
-
和
分别表示原始视频理解网络和运动理解网络,架构由一个 EVA-CLIP 和一个预训练的 Video Q-Former 组成
-
和
表示对于视频和运动的可学习的投影网络,旨在将视觉(视频和运动)嵌入投影到语言特征空间
-
表示冻结的文本标记到嵌入的投影,旨在使文本信息可以输入到 LLaMA-2 中
-
⊕
表示组合输入 prompt: “Here is the input video embedding:
and motion embedding
in different frames, please help me to
| .” 其中
是视频描述生成的问题类别,
是视频问答的问题类别
3.2 隐式集成运动模态
3.1 虽然集成了运动模态来微调 HAWK,但是视频分支和运动分支独立运行,所以视频分支不能提取出
关注异常发生区域(运动)
的外观特征。
3.2.1 提取运动
接着,使用这些通道的光流幅度作为 Mask,归一化到 [0,1],并与原始视频外观进行相乘,以遮蔽其他非运动区域: