专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

NeurIPS 2024 | 已开源！港科广团队提出Hawk：面向开放世界的视频异常理解框架

PaperWeekly · 公众号 · 科研 · 2025-03-19 13:54

正文

视频异常检测（VAD）系统广泛应用于监控、安防、交通管理等领域，能够自动识别异常事件，如暴力行为、交通事故等，从而减少人工干预、提高效率。在大模型时代，随着大规模预训练模型，尤其是视觉语言模型（VLM）的发展，VAD 的智能化水平得到了显著提升。

然而，现有 VAD 技术仍面临挑战。当前系统多依赖传统特征提取方法，对场景的语义理解有限，难以识别复杂或不规则的异常行为。同时，现有的标注数据稀缺，限制了 VAD 在开放世界场景中的应用，这些场景中异常行为千差万别，现有模型难以应对未见过的新型异常，并缺乏足够的自适应能力。

针对上述挑战，本研究提出了 Hawk ，一个面向开放世界的视频理解和异常检测框架。HAWK 通过识别异常视频和正常视频之间的运动信息差异，显式地整合了运动模态以增强异常识别。为了加强运动信息的关注，Hawk 在运动和视频空间中构建了一个辅助一致性损失，指导视频分支集中在运动模态上。

此外，为了提升运动与语言之间的解释能力，Hawk 建立了运动及其语言表示之间的明确监督关系。此外，本研究标注了超过 8,000 个异常视频及其语言描述，支持在多样的开放世界场景中进行有效训练，并创建了 8,000 对问答对，以帮助用户处理开放世界中的问题。

实验结果表明，HAWK 在视频描述生成和问答任务中均超越了现有的 VAD 基准。

论文标题：

Hawk: Learning to Understand Open-World Video Anomalies

论文链接：

https://openreview.net/pdf?id=vBKoEZ1PG3

Demo链接：

https://huggingface.co/spaces/Jiaqi-hkust/hawk

模型链接：

https://huggingface.co/Jiaqi-hkust/hawk

数据集链接：

https://huggingface.co/datasets/Jiaqi-hkust/hawk

代码链接：

https://github.com/jqtangust/hawk

引言

▲ 图1：在 VAD 中不同的架构

（A）是传统的 VAD，他使用一个二分类器来检测异常；

（B）是使用多分类器整合语义信息来给出对不同类型的异常信息，仅限于检测异常帧

（C）是之前的视频理解框架，可以交互式的为用户提供丰富的语义信息（但更多关注的是长距离上下文信息，而不是异常信息），但是不能准确定位异常（因为主要依赖伪标签）

（D）为本文提出的方法，提高了异常理解能力，并使用带有丰富语义信息的注释标签来训练

1.1 问题

如图 1（A）所示，对场景的语义理解较浅，用户交互不足。
如图 1（B）所示，仅限于检测异常帧，仍需进一步手动分析来理解异常。
如图 1（C）所示，主要依赖于伪标签进行训练，更多关注长距离上下文信息，而不是与异常相关特征。

1.2 方法

HAWK 是一个交互式 VLM（interactive large visual-language model），用于精确理解视频异常，如图 1（D）所示。

正常视频和异常视频中的运动差异显著。通过双分支框架显式集成运动模态，以增强对异常的理解（3.1）。
增强运动注意力。基于原始视频（外观特征）和其运动之间的互信息，在紧空间中构建了一个辅助一致性损失（3.2）隐式引导视频分支关注运动相关特征。
增强运动与相应语言的解释。从原始描述中提取与运动相关的语言（动词及其实体），以监督运动的视觉和语言表示（3.3）。

1.3 数据集

本研究采集了来自不同场景的七个视频异常数据集，并为每个视频生成了语言描述。此外，为了应对用户提出的开放式问题，本研究利用视频的语言描述生成潜在的 QA 对进行训练。

由于这些数据集涵盖了多个场景，包括犯罪（UCF-Crime）、校园环境（ShanghaiTech 和 CUHK Avenue）、人行道（UCSD Ped1 和 Ped2）、交通情况（DoTA）以及人类行为（UBnormal），因此，该模型能够有效地泛化到开放世界场景中。

1.4 贡献

一个创新的视频-语言框架 HAWK，旨在理解视频异常，并引入运动模态来增强其视频理解语义能力。
为七个不同的视频异常数据集生成了丰富的语言描述。同时，考虑到开放世界问题的多样性，同时生成了问答对，以应对潜在的用户 QA。
在多个场景中展示了 SOTA 的表现，既能进行视频异常理解，又能进行问答任务。

数据工程

▲ 图2：数据集生成的流程。

（第一行）首先将视频分割为片段密集片段并生成描述，然后通过将“描述+prompt” 输入给 GPT4 来生成与异常视频相关的描述，并且要人工检查出错误的。

（第二行）将”两个原则 +prompt” 输入给 GPT4 来生成问题，并通过人工选出最合适的 100 个问题，将他们随机分给不同的视频，然后将上面的”描述 + 问题 + prompt” 输入给 GPT4 来生成答案。

2.1 原理

2.1.1 语言描述

对 7 个数据集进行详细的语言描述标注，涵盖了多种异常场景：

犯罪（UCF-Crime）
校园（ShanghaiTech、CUHK Avenue）
人行道（UCSD Ped1、Ped2）
交通（DoTA）
人类行为（UBnormal）

2.1.2 开放性问题

为每种场景构建了开放式的 QA 对，进一步增强模型对用户各种问题的实际回答能力。过程如图 2 所示。数据格式如下：

2.2 异常视频描述生成流程

首先将视频拆分为密集的片段，确保捕捉到关键信息
使用感知工具（InternVideo、Tag2Text、GRiT）自动生成每个片段的描述（UCF-Crime 本身就有）
将描述 + prompt（生成与视频异常相关的具体描述）给 GPT-4 来为每个视频生成与异常相关的描述
人工检查不准确的标注

2.3 以人为中心的 QA 对生成

虽然已经获得准确的异常视频描述。但仍可能面临用户提出的更开放性问题的挑战。

2.3.1 两个原则

与异常相关：问题应与视频中的异常紧密相关
5W2H： What、Who、Where、When、How、How much 和 Why

2.3.2 流程

将“两个原则 + prompt” 输入 GPT-4 来生成异常视频的开放性问题
人工选择出最合适的 100 个问题，随机分配给每个视频
将“问题 + prompt” 输入 GPT-4 来为生成

方法

图3：Hawk 的总览

在训练过程中，旨在优化 3 个损失：

（1）原始视频到语言匹配损失，为了生成一般性的语言描述

（2）原始视频到运动一致性损失，为了让原始视频更关注与运动相关的

（3）运动到语言匹配损失，为了让模型更好的描述运动

3.1 显式集成运动模态

HAWK 专门集成了运动模态，采用架构相同但权重独立的双分支结构集成视频和运动信息，形成视觉标记嵌入。最终，通过结合视觉标记嵌入和文本嵌入，输入给 LLaMA-2 来生成最后的响应，整体推理过程如下：

表示用于提取外观特征的
表示用于提取运动特征的表示运动提取器
和分别表示原始视频理解网络和运动理解网络，架构由一个 EVA-CLIP 和一个预训练的 Video Q-Former 组成
和表示对于视频和运动的可学习的投影网络，旨在将视觉（视频和运动）嵌入投影到语言特征空间
表示冻结的文本标记到嵌入的投影，旨在使文本信息可以输入到 LLaMA-2 中
⊕ 表示组合输入 prompt: “Here is the input video embedding: and motion embedding in different frames, please help me to | .” 其中是视频描述生成的问题类别，是视频问答的问题类别

3.2 隐式集成运动模态

3.1 虽然集成了运动模态来微调 HAWK，但是视频分支和运动分支独立运行，所以视频分支不能提取出关注异常发生区域（运动）的外观特征。

3.2.1 提取运动

表示在时间步的运动描述，使用了 Gunnar Farneback 算法，用于生成两个连续帧之间的运动信息
表示在时间步和的视频帧
包含来自水平和竖直两个方向的运动向量

接着，使用这些通道的光流幅度作为 Mask，归一化到 [0,1]，并与原始视频外观进行相乘，以遮蔽其他非运动区域：

× 表示逐像素相乘

NeurIPS 2024 | 已开源！港科广团队提出Hawk：面向开放世界的视频异常理解框架

正文

请到「今天看啥」查看全文