专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

ECCV'24｜超越标注！PixOOD：无OOD样本训练也能像素级异常检测！

计算机视觉工坊 · 公众号 · · 2024-10-21 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新的像素级异常检测（OOD）方法，旨在无需使用真实或合成的OOD训练样本来检测像素级别的异常。该方法基于一个数据凝聚算法，并通过与EM算法中的数据对数似然优化理论建立联系。作者将这一方法应用于多个不同领域的基准测试，包括道路异常检测、工业异常检测和海事障碍物检测，实验结果表明，该方法在七个数据集中的四个上达到了当前最优（State-of-the-Art）的检测效果，展示了其在多个任务中的竞争力和适应性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：PixOOD: Pixel-Level Out-of-Distribution Detection

作者：Tomáš Vojíř , Jan Šochman

作者机构：Czech Technical University in Prague, Faculty of Electrical Engineering

论文链接：https://arxiv.org/pdf/2405.19882

2. 摘要

我们提出了一种密集图像预测的异常检测算法，称为PixOOD。该算法无需在异常数据样本上进行训练，也不针对特定应用，从而避免了传统训练偏差。为了在像素级建模分布内数据的复杂类内变化，我们提出了一种在线数据压缩算法，其鲁棒性优于标准的K-means，并且能够通过随机梯度下降（SGD）轻松训练。我们在多个问题上对PixOOD进行了评估，结果显示，在七个数据集中的四个上取得了最新的最佳表现，且在其余数据集上表现具有竞争力。源代码可在 https://github.com/vojirt/PixOOD 获得。

3. 效果展示

以下是PixOOD在道路异常检测、海事障碍物检测和工业检测任务中的结果示例。PixOOD能够识别出在标准基准测试中未考虑甚至未标记的异常数据，例如不属于Cityscapes分类的电缆、溢出的物品或绝缘层上的划痕。

以下是着重于“失败”案例的典型输出。PixOOD在某些情况下会出现欠分割（a）或过分割（b、c、m）的现象，但它通常能够发现意想不到但合理的异常，例如：一根棍子（e）、水中的倒影（k）、鸟（l、m）、额外的划痕（p）和药丸残留物（q）。它也无法检测到逻辑异常，如图（n）中的交错电缆或图（o）中的缺失标签。此外，它还将语义/领域的变化视为异常：山脉（b、c）、透视的敞篷车顶（d）和城市景观（f）在语义上相关，但与CityScapes标签的植物、汽车和建筑并不相同。图例：红色 - 检测到的异常，绿色 - 可用的真实标签，白色 - 被忽略的区域；椭圆标记相关区域。

4. 主要贡献

一种新颖的像素级OOD检测方法PixOOD。该方法具有通用性（即非针对特定任务或基准测试设计），且无需任何真实或合成的OOD训练样本（第3节）。
一种新颖的数据压缩算法，采用具有新损失函数和重新初始化机制的随机优化形式。
我们从理论上展示了压缩损失函数与完整数据对数似然优化下界之间的关系。推荐课程：国内首个3D缺陷检测实战教程。
我们通过将该方法应用于三个不同的基准测试展示了其适用性，这些基准测试通常由专用方法独立解决。所提出的方法在所有（七个）数据集上表现出竞争力，并在四个数据集上实现了最新的最佳结果。

5. 基本原理是啥？

该方法的基本原理是通过 数据凝聚算法 （data condensation algorithm）来进行像素级的异常检测。核心思想是使用有限的计算资源，通过对数据进行有效的压缩和聚类，提取出能够代表数据分布的“浓缩数据”。这些浓缩数据可以在不依赖异常样本的情况下，帮助模型识别出异常像素。

具体来说，该算法与 EM（期望最大化）算法 中的 完整数据对数似然优化 有理论上的联系。EM算法的目标是最大化数据的对数似然，数据凝聚算法则通过寻找适当的聚类方式，来提高对像素级数据的建模效果。通过这种方式，模型能够在没有任何额外的OOD数据（无论是真实数据还是通过数据增强生成的合成数据）的情况下，实现对未知异常情况的检测。

数据凝聚 ：通过聚类和压缩，浓缩数据的表示，从而降低数据的复杂度。
无OOD样本训练 ：无需额外的异常数据，直接从正常数据中学习。
像素级检测 ：针对每个像素进行异常检测，适用于不同类型的图像任务和基准测试。

6. 实验结果

道路异常检测

在 Road Anomaly 和 FishyScapes LaF 数据集上的实验表明，该方法相较于最近的 State-of-the-Art（SOTA）方法 有显著提升。
在 SMIYC 基准测试中（主要用于道路异常分割任务），该方法在 Obstacle Track （障碍物轨道）中表现最佳，并在 LaF NoKnown （无已知数据轨道）中表现第二。
与其他不使用辅助OOD数据的方法相比，该方法在多个基准上表现优越。

工业异常检测

在工业异常检测基准 MVTec AD 中，PixOOD方法与为特定领域优化的方法表现相当。
在引入 DRAEM方法 的特定领域知识后，该方法在工业检测任务中的表现有所提升，尤其是在 AUPRO（区域重叠面积） 指标上有显著改善。

海事障碍物检测

在 LaRS 基准数据集上的实验中，该方法的主要任务是将图像划分为水域、天空和 障碍物 三类。
实验结果显示，该方法在 LaRS 排行榜上排名第四。其主要问题是由于过分分割导致的精度下降。
尽管存在这些问题，但该方法依然能够在多种情况下表现出色，证明了其在不同领域和任务中的适应性和泛化能力。

消融实验

在道路异常检测任务中，消融实验表明，较大的“预算”K值能够显著提高检测性能。实验显示，K值接近1000时，性能趋于饱和，表明该方法在一定程度上可以有效利用更多的聚类簇。
与K-means和K-medians算法相比，所提出的数据凝聚算法表现更加稳健和高效。

增强版本对比

将现代的 DINOv2 ViT-L骨干网络 加入到已有的DaCUP方法中（命名为DaCUP++），性能有显著提升，特别是在减少假阳性率方面。
同时， PixOOD与DaCUP 结合使用，进一步增强了特定任务的表现，特别是在道路异常检测任务中，通过融合PixOOD和DaCUP的重建模块，该方法在四个基准测试中的三个上超越了DaCUP++。

7. 总结 & 未来工作

本文提出了一种新颖的像素级OOD（Out-of-Distribution）检测方法。该方法并非为特定任务或基准设计，但在多种像素级OOD问题上表现出色。该方法在训练时无需使用任何OOD样本，无论是真实数据还是合成数据。该方法基于一种提出的数据凝聚算法。该算法在理论上与EM（期望最大化）算法中的完整数据对数似然优化相关联。我们将该方法应用于三个非常不同的像素级异常基准，并在所考察的七个数据集中取得了四个SOTA（State-of-the-Art）结果。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群