专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
闽南日报  ·  抖音、快手、微信同日宣布:下架! ·  昨天  
闽南日报  ·  抖音、快手、微信同日宣布:下架! ·  昨天  
库斯卡娅的朋友们  ·  马斯克的天命就是做公益哪 ·  昨天  
库斯卡娅的朋友们  ·  马斯克的天命就是做公益哪 ·  昨天  
中国基金报  ·  黄某被策反,春节期间当间谍 ·  2 天前  
上海经信委  ·  “开发者,找找找” | ... ·  3 天前  
上海经信委  ·  “开发者,找找找” | ... ·  3 天前  
AI产品榜  ·  DeepSeek 7 天用户破亿|AI产品榜 ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

60万帧!IPAD:首个开源工业视频异常数据集!

3D视觉工坊  · 公众号  ·  · 2024-07-17 09:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章主要解决了工业场景下视频异常检测(VAD)的问题。作者首先介绍了一个新的工业周期性视频异常检测数据集,专注于工业场景,为评估工业环境中VAD方法提供了重要资源。然后,作者提出了一种新颖的方法,将周期性信息有效地整合到基于重建的模型中,以提高异常检测性能。最后,作者提出了LoRA适配器和合成数据预训练的方法,可以显著降低数据需求和模型训练时间,同时保证检测准确性,加速了VAD任务在实际场景中的部署。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:IPAD: Industrial Process Anomaly Detection Dataset

作者:Jinfan Liu等

作者机构:Shanghai Jiao Tong University等

论文链接:https://arxiv.org/pdf/2404.15033

项目主页:https://ljf1113.github.io/IPAD_VAD/

2. 摘要

视频异常检测(VAD)是一个具有挑战性的任务,旨在识别视频帧中的异常,现有的大规模VAD研究主要集中在道路交通和人类活动场景上。在工业场景中,往往存在各种不可预测的异常情况,而VAD方法在这些场景中可以发挥重要作用。然而,由于对隐私和安全性的担忧,针对工业生产场景特别设计的适用数据集和方法缺乏。为了弥补这一空白,我们提出了一个新的数据集,IPAD,专门用于工业场景中的VAD。我们的数据集中的工业过程是通过现场工厂研究和与工程师的讨论选择的。该数据集涵盖了16种不同的工业设备,并包含超过6小时的合成和真实世界的视频素材。此外,我们对工业过程的关键特征进行了标注,即周期性。基于所提出的数据集,我们引入了一个周期记忆模块和一个滑动窗口检查机制,以有效地研究基本重建模型中的周期信息。我们的框架利用了LoRA适配器来探索预训练模型的有效迁移,这些模型最初是使用合成数据进行训练的,迁移到实际场景中。我们提出的数据集和方法将填补工业视频异常检测领域的空白,并推动视频理解任务以及智能工厂部署的进程。项目页面:https://ljf1113.github.io/IPAD_VAD。

3. 效果展示

第一行显示了我们数据集中的部分设备。第二行显示了一些正常和异常的情况。

异常评分曲线。第一行为两个异常的检测结果。第二行是光线变化和相机抖动的情况,可以看出我们的方法异常分数更低,更接近GT。

4. 主要贡献

  • 我们提出了一个用于工业场景视频异常检测的具有真实和合成数据的数据集。据我们所知,这是工业场景的第一个视频异常数据集。

  • 我们提出了一个新颖的框架,通过引入周期信息,将传统的基于重建的模型与周期特征相结合,引入了一个周期记忆模块和一个滑动窗口检查机制。

  • 我们的工作填补了工业环境中视频异常检测的现有空白。利用合成数据,我们探索了一种有效的微调方法,可以快速将模型迁移到实际场景。

5. 基本原理是啥?

本文的基本原理是利用自动编码器(Auto-Encoder,AE)结构进行视频异常检测,重点利用了工业设备运动的周期性信息。具体来说,该方法包括以下关键步骤:

  • 特征提取:使用Video Swin Transformer作为编码器,从输入视频序列中提取时空特征,得到高维特征向量。
  • 重建:利用解码器部分,将编码后的特征向量重新构建成图像,与原始输入视频帧进行比较,计算异常分数。
  • 周期性记忆结构:引入周期性记忆结构,保存完整周期特征,根据训练阶段的周期定位结果更新内存地址,以有效选择存储在内存中的特征。
  • 滑动窗口检查:根据周期定位结果,使用滑动窗口检查方法检测测试视频序列的周期性,计算周期定位序列误差,以便区分正常情况和异常情况。
  • 适应器结构:为了提高在真实场景中的异常检测准确性,采用适应器结构用于编码器,在微调过程中冻结大多数预训练参数,仅保留嵌入和层归一化组件,以减少训练参数,同时最大限度地提高模型准确性。

综上所述,本文基于自动编码器结构,通过特征提取、重建、周期性记忆结构、滑动窗口检查和适应器结构等步骤,利用工业设备运动的周期性信息进行视频异常检测。

6. 实验结果

本文的实验部分主要围绕提出的IPAD数据集展开,着重评估了所提出方法在视频异常检测(VAD)任务上的性能。

数据集和评估协议:

  • 在测试阶段,采用了曲线下面积(AUC)作为评估性能的指标。
  • 对于测试集中的视频帧,将其连接起来计算AUC值。
  • 由于测试集中的视频被分为多个较短的视频段,为了归一化数据以满足数据集特点,决定对整个测试集中的重建误差结果进行归一化。

实现细节:

  • 由于数据集中有多样的内容,导致数据特征的显著变化,因此采用了针对不同场景单独训练和测试的模型。
  • 每个输入视频剪辑包含16帧,调整每个帧大小为256×256。
  • 编码器部分采用了Video Swin-T架构,特定参数为C=96和层编号{2, 2, 6, 2}。-引入了周期性记忆模块和滑动窗口技术来增强模型。

与现有技术的比较:

  • 实验中构建了自动编码器重建结构和引入周期性信息的方法,并与现有方法进行比较。
  • 采用了ASTNet和DMAD作为基线方法,与提出的方法进行对比。
  • 实验结果表明,提出的方法在IPAD数据集上取得了较高的AUC,进一步证明了其有效性和优越性。

合成和真实数据的混合学习:

  • 针对工业场景中收集真实训练数据的困难,探索了使用合成数据来减少数据需求。
  • 采用了两阶段“预训练+微调”训练策略,预训练使用合成数据,微调使用真实数据,以适应真实场景。
  • 实验结果显示,采用预训练和适配器结构能够有效降低数据需求和训练时间,同时在保持准确性的情况下减少了训练时间。

消融研究:

  • 对周期性记忆模块和滑动窗口技术进行了消融实验,评估了引入周期性信息所带来的性能增强。
  • 结果表明,引入周期性信息显著提高了模型的性能,特别是在处理视频中的光照变化和视点抖动时表现出更好的稳定性。

综上所述,本文通过详细的实验设计和评估,验证了提出方法在工业场景视频异常检测任务上的有效性和优越性,并提出了针对实际场景的数据利用和模型优化策略。

7. 总结 & 未来工作

在本文中,我们解决了工业场景下的视频异常检测(VAD)问题。我们引入了第一个工业周期性视频异常检测数据集。该数据集专注于工业场景,是评估工业环境中VAD方法的宝贵资源。我们认识到工业设备动作中固有的周期特征,并提出了一种有效将周期信息集成到基于重建的模型中的新方法。我们的方法利用隐式和显式周期信息的双重利用来增强异常检测性能。最后,我们提出的LoRA适配器和合成数据预训练的结合大大降低了数据需求和模型训练时间,同时确保了检测准确性。这一进步显著加速了VAD任务在实际场景中的部署,促进了它们的快速实施和有效性。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网: www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件







请到「今天看啥」查看全文