专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
募格学术  ·  “双一流”高校,获捐2.5亿! ·  7 小时前  
研之成理  ·  上海交通大学张明亮课题组招聘博士后 ·  昨天  
弗雷赛斯  ·  润色,你不会还花钱找公司吧? ·  3 天前  
社会学理论大缸  ·  全奖丨巴黎高等商学院硕博连读机会,免学费+1 ... ·  昨天  
51好读  ›  专栏  ›  PaperWeekly

NeurIPS 2024 | 已开源!港科广团队提出Hawk:面向开放世界的视频异常理解框架

PaperWeekly  · 公众号  · 科研  · 2025-03-19 13:54

正文


视频异常检测(VAD)系统广泛应用于监控、安防、交通管理等领域,能够自动识别异常事件,如暴力行为、交通事故等,从而减少人工干预、提高效率。在大模型时代,随着大规模预训练模型,尤其是视觉语言模型(VLM)的发展,VAD 的智能化水平得到了显著提升。


然而,现有 VAD 技术仍面临挑战。当前系统多依赖传统特征提取方法, 对场景的语义理解有限 ,难以识别复杂或不规则的异常行为。同时,现有的标注 数据稀缺 ,限制了 VAD 在开放世界场景中的应用,这些场景中异常行为千差万别,现有模型难以应对未见过的新型异常,并缺乏足够的自适应能力。


针对上述挑战,本研究提出了 Hawk ,一个面向开放世界的视频理解和异常检测框架。HAWK 通过识别异常视频和正常视频之间的运动信息差异,显式地 整合了运动模态 以增强异常识别。为了加强运动信息的关注,Hawk 在运动和视频空间中构建了一个 辅助一致性损失 ,指导视频分支集中在运动模态上。


此外,为了提升运动与语言之间的解释能力,Hawk 建立了 运动及其语言表示之间的明确监督关系 。此外,本研究标注了超过 8,000 个异常视频及其语言描述,支持在多样的开放世界场景中进行有效训练,并创建了 8,000 对问答对,以帮助用户处理开放世界中的问题。


实验结果表明,HAWK 在视频描述生成和问答任务中均超越了现有的 VAD 基准。


论文标题:

Hawk: Learning to Understand Open-World Video Anomalies

论文链接:

https://openreview.net/pdf?id=vBKoEZ1PG3

Demo链接:

https://huggingface.co/spaces/Jiaqi-hkust/hawk

模型链接:

https://huggingface.co/Jiaqi-hkust/hawk

数据集链接:

https://huggingface.co/datasets/Jiaqi-hkust/hawk

代码链接:

https://github.com/jqtangust/hawk



引言

▲ 图1:在 VAD 中不同的架构


(A)是传统的 VAD,他使用一个二分类器来检测异常;


(B)是使用多分类器整合语义信息来给出对不同类型的异常信息, 仅限于检测异常帧


(C)是之前的视频理解框架,可以交互式的为用户提供丰富的语义信息(但 更多关注的是长距离上下文信息,而不是异常信息 ),但是不能准确定位异常(因为主要依赖伪标签)


(D)为本文提出的方法,提高了异常理解能力,并 使用带有丰富语义信息的注释标签来训练

1.1 问题

  • 如图 1(A)所示,对场景的语义理解较浅,用户交互不足。

  • 如图 1(B)所示,仅限于检测异常帧,仍需进一步手动分析来理解异常。

  • 如图 1(C)所示,主要依赖于伪标签进行训练,更多关注长距离上下文信息,而不是与异常相关特征。

1.2 方法

HAWK 是一个交互式 VLM(interactive large visual-language model),用于精确理解视频异常,如图 1(D)所示。


  • 正常视频和异常视频中的运动差异显著。 通过双分支框架显式集成运动模态,以增强对异常的理解(3.1)。

  • 增强运动注意力。 基于原始视频(外观特征)和其运动之间的互信息,在紧空间中构建了一个辅助一致性损失(3.2)隐式引导视频分支关注运动相关特征。

  • 增强运动与相应语言的解释。 从原始描述中提取与运动相关的语言(动词及其实体),以监督运动的视觉和语言表示(3.3)。

1.3 数据集

本研究采集了来自不同场景的七个视频异常数据集, 并为每个视频生成了语言描述 此外,为了应对用户提出的开放式问题,本研究 利用视频的语言描述生成潜在的 QA 对 进行训练。


由于这些数据集涵盖了多个场景,包括犯罪(UCF-Crime)、校园环境(ShanghaiTech 和 CUHK Avenue)、人行道(UCSD Ped1 和 Ped2)、交通情况(DoTA)以及人类行为(UBnormal),因此,该模型能够有效地泛化到开放世界场景中。

1.4 贡献

  • 一个创新的视频-语言框架 HAWK,旨在理解视频异常,并引入 运动模态 来增强其视频理解语义能力。

  • 七个不同的视频异常数据集 生成了丰富的语言描述。同时,考虑到开放世界问题的多样性,同时生成了 问答对 ,以应对潜在的用户 QA。

  • 在多个场景中展示了 SOTA 的表现,既能进行视频异常理解,又能进行问答任务。



数据工程

▲ 图2:数据集生成的流程。


(第一行)首先将视频分割为片段密集片段并生成描述,然后通过将“描述+prompt” 输入给 GPT4 来生成与异常视频相关的描述,并且要人工检查出错误的。


(第二行)将”两个原则 +prompt” 输入给 GPT4 来生成问题,并通过人工选出最合适的 100 个问题,将他们随机分给不同的视频,然后将上面的”描述 + 问题 + prompt” 输入给 GPT4 来生成答案。

2.1 原理

2.1.1 语言描述

对 7 个数据集进行详细的语言描述标注,涵盖了多种异常场景:


  • 犯罪(UCF-Crime)

  • 校园(ShanghaiTech、CUHK Avenue)

  • 人行道(UCSD Ped1、Ped2)

  • 交通(DoTA)

  • 人类行为(UBnormal)

2.1.2 开放性问题

每种场景构建了开放式的 QA 对 ,进一步增强模型对用户各种问题的实际回答能力。过程如图 2 所示。数据格式如下:

2.2 异常视频描述生成流程

  • 首先将视频拆分为 密集的片段 ,确保捕捉到关键信息

  • 使用感知工具(InternVideo、Tag2Text、GRiT) 自动生成每个片段的描述 (UCF-Crime 本身就有)

  • 将描述 + prompt(生成与视频异常相关的具体描述)给 GPT-4 来为每个视频生成 与异常相关的描述

  • 人工 检查不准确的标注

2.3 以人为中心的 QA 对生成

虽然已经获得准确的异常视频描述。但仍可能面临用户提出的更开放性问题的挑战。

2.3.1 两个原则

  • 与异常相关: 问题应与视频中的异常紧密相关

  • 5W2H: What、Who、Where、When、How、How much 和 Why

2.3.2 流程

  • 将“两个原则 + prompt” 输入 GPT-4 来生成异常视频的开放性问题

  • 人工选择出最合适的 100 个问题,随机分配给每个视频

  • 将“问题 + prompt” 输入 GPT-4 来为 生成



方法

图3:Hawk 的总览


在训练过程中,旨在优化 3 个损失:


(1)原始视频到语言匹配损失,为了生成一般性的语言描述


(2)原始视频到运动一致性损失,为了让原始视频更关注与运动相关的


(3)运动到语言匹配损失,为了让模型更好的描述运动

3.1 显式集成运动模态

HAWK 专门 集成了运动模态 ,采用架构相同但权重独立的双分支结构集成视频和运动信息,形成视觉标记嵌入。最终,通过结合视觉标记嵌入 和文本嵌入 ,输入给 LLaMA-2 来生成最后的响应 ,整体推理过程如下:

  • 表示用于提取外观特征的

  • 表示用于提取运动特征的 表示运动提取器

  • 分别表示原始视频理解网络和运动理解网络,架构由一个 EVA-CLIP 和一个预训练的 Video Q-Former 组成

  • 表示对于视频和运动的可学习的投影网络,旨在将视觉(视频和运动)嵌入投影到语言特征空间

  • 表示冻结的文本标记到嵌入的投影,旨在使文本信息可以输入到 LLaMA-2 中

  • 表示组合输入 prompt: “Here is the input video embedding: and motion embedding in different frames, please help me to | .” 其中 是视频描述生成的问题类别, 是视频问答的问题类别

3.2 隐式集成运动模态

3.1 虽然集成了运动模态来微调 HAWK,但是视频分支和运动分支独立运行,所以视频分支不能提取出 关注异常发生区域(运动) 的外观特征。

3.2.1 提取运动

  • 表示在时间步 的运动描述,使用了 Gunnar Farneback 算法,用于生成两个连续帧之间的运动信息

  • 表示在时间步 的视频帧

  • 包含来自水平和竖直两个方向的运动向量

接着,使用这些通道的光流幅度作为 Mask,归一化到 [0,1],并与原始视频外观进行相乘,以遮蔽其他非运动区域:

  • × 表示逐像素相乘








请到「今天看啥」查看全文