专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
药渡  ·  大年初八,开工大吉! ·  3 天前  
医药经济报  ·  首版丙类目录2025年发布,各地探索商保医保 ... ·  4 天前  
甘肃药品监管  ·  甲钴胺片吃一个月得停?其实真相是…… ·  昨天  
现代快报  ·  默沙东宣布:暂停供应 ·  3 天前  
现代快报  ·  默沙东宣布:暂停供应 ·  3 天前  
Insight数据库  ·  针对小细胞肺癌脑转移,国产 1 ... ·  6 天前  
51好读  ›  专栏  ›  3D视觉工坊

无需训练也能超越SOTA!AVLM与推理结合!LogicAD一图一文解析工业异常检测!

3D视觉工坊  · 公众号  ·  · 2025-01-23 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了一种新颖的异常检测方法 LogicAD ,通过结合AVLM(大规模视觉语言模型)提取的文本特征和 Guided CoT (引导链式推理)技术,显著提高了逻辑异常检测的性能。该方法在多个数据集上展示了优越的检测效果,超越了现有的SOTA方法,尤其在处理逻辑异常时表现突出。此外,LogicAD还集成了定理证明器,用于预测逻辑异常并提供解释,增强了模型的可解释性。尽管推理时间较长,未来可通过进一步优化推理速度,提升模型效率。总体而言,LogicAD为异常检测引入了新的思路,特别在逻辑异常领域具有重要意义。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction

作者:Er Jin, Qihui Feng等

作者机构:Institute of Imaging and Computer Vision, RWTH Aachen University, Aachen, Germany等

论文链接:https://arxiv.org/pdf/2501.01767

2. 摘要

逻辑图像理解涉及对图像视觉内容中关系和一致性的解读与推理。这一能力在工业检测等应用中至关重要,因为逻辑异常检测(AD)对保持高质量标准和减少昂贵的召回非常关键。以往的AD研究依赖于先验知识来设计算法,这通常需要大量的手工标注工作、强大的计算能力和大量的数据进行训练。自回归多模态视觉语言模型(AVLMs)由于在视觉推理各个领域中的卓越表现,提供了一个有前景的替代方案。尽管如此,它们在逻辑AD中的应用尚未得到探索。在本研究中,我们探讨了使用AVLMs进行逻辑AD,并证明它们非常适合该任务。结合AVLMs与格式嵌入和逻辑推理器,我们在公共基准MVTec LOCO AD上取得了最先进(SOTA)的AD性能,AUROC为86.0%,F1-max为83.7%,并提供了异常的解释。这一结果显著超越了现有的SOTA方法,AUROC提高了18.1%,F1-max得分提高了4.6%。数据集、代码及补充材料可在https://jasonjin34.github.io/logicad.github.io/获取。

3. 效果展示

标准提示与引导式思维链(Guided CoT)提示的对比图。我们使用图3中的图像Xq作为输入。地面实况描述指定两条电缆未连接到同一插槽位置。使用基于Guided CoT的提示,AVLM可以生成对输入图像更准确的描述。

4. 主要贡献

  • 我们介绍了LogicAD,这是一种新颖的少样本LA检测算法,利用文本特征记忆库,结合AVLMs和大语言模型(LLMs)实现了少样本逻辑AD的SOTA性能。
  • 我们设计了一个文本特征提取流程,使得AVLMs能够生成逻辑、鲁棒且可靠的文本特征,用于详细的逻辑描述。
  • 我们引入了一种逻辑推理器,利用自动定理证明器(ATP)进行LA检测,并生成已识别异常的描述性解释,无需手动或动态阈值调整。

5. 基本原理是啥?

本文提出的基本原理是利用从 增强视觉语言模型(AVLMs) 中提取的文本特征进行异常检测(AD):

  1. Guided CoT(Guided Chain of Thought)

  • 该方法通过引导模型在推理过程中采用逻辑推理链条,从而提高模型的推理质量。通过逻辑推理链条,模型能够有效地检测出与逻辑相关的异常,尤其是那些表现为缺失物体、错位等简单逻辑不一致的异常。
  • ROI(Region of Interest)

  • 文本格式化

    • 本方法利用文本格式化来组织信息,帮助模型更好地理解图像中的逻辑关系,进而发现潜在的异常。
  • 定理证明器

    • 该方法集成了定理证明器,用于预测图像中的逻辑异常,并提供相关的解释。定理证明器基于AVLMs的理解能力,可以更准确地识别和解释异常,提高了模型的可解释性。

    通过这些技术的结合,本文提出的 LogicAD 方法能够高效且准确地进行逻辑异常检测,并超越了当前的最先进方法(SOTA)。特别是在处理涉及逻辑不一致的异常时,模型的表现优于传统的视觉特征方法。

    6. 实验结果

    实验结果显示, LogicAD 方法在多个数据集上的表现优异,尤其是在检测逻辑异常(LA)方面,具有显著的优势:

    1. 逻辑异常检测(LA)

    • WinCLIP AnomalyCLIP 等当前基于视觉特征的算法在某些类别(如胶囊、晶体管和牙刷)中表现较差,但 LogicAD 在这些类别上取得了更好的检测结果,超越了 WinCLIP 5.6%。
    • AnomalyCLIP VAND 等SOTA方法相比, LogicAD 在不需要训练的情况下,显著优于 VAND 算法(提高了15%),与 AnomalyCLIP 的表现接近。
    • 逻辑异常 的检测结果表明, LogicAD 在与其他方法的比较中,特别是在 MVTec AD 数据集上,表现出了显著的优势。
  • 复杂逻辑异常检测

    • MVTec LOCO AD 数据集上, LogicAD 展示了比 AnomalyMoE (一种SOTA的少样本VLM方法)更优的性能,AUROC提高了18.1%,F1-max得分提高了4.6%。
    • 即使与一些全样本方法,如 PatchCore AST 进行比较, LogicAD 仍在许多类别上表现更好。
    • 在与其他全样本算法(如 GCAD ComAD )比较时, LogicAD 也表现出了非常有竞争力的结果。
  • 结构异常检测

    • LogicAD 能够通过精心设计的提示,除了检测逻辑异常外,还能够识别结构异常。在 MVTec LOCO AD 数据集上, LogicAD 超越了 WinCLIP (单次实验方法)和 GCAD (全样本方法),但稍微逊色于 PatchCore AST
    • MVTec AD 数据集上, LogicAD WinCLIP 相比,取得了非常有竞争力的成绩,特别是在纹理类的异常检测中, LogicAD 的AUROC为96.9%,接近 WinCLIP 的98.1%和 AnomalyCLIP 的98.7%。
  • AVLMs的影响

    • 使用不同版本的AVLM(如 LLaVA 1.5 LLaVA 1.6 )进行实验时,虽然 LLaVA 1.5 在F1-max得分上不如SOTA方法,但 LLaVA 1.6 的表现与SOTA相当。
    • 在AUROC得分上, LLaVA 1.5 LLaVA 1.6 都显著超越了SOTA,这表明 LogicAD 方法将随着AVLM研究的进展不断受益。
  • 推理时间

    • 尽管 LogicAD 方法具有较长的推理时间(每张图片平均几秒),但通过使用如 BitNet AVLM剪枝 等方法可以加速推理时间。尽管这些优化方法超出了本文的讨论范围,但它们可进一步提升效率。
  • 模型可解释性

    • LogicAD 通过集成定理证明器,能够为每个检测到的逻辑异常提供相应的解释,增强了模型的可解释性。与传统的图像处理方法相比,这种方式为用户提供了更清晰的结果解析。

    7. 总结 & 未来工作

    局限性

    尽管我们的方法提出了一个新的视角并取得了显著的成果,但仍存在一些局限性,例如不同AVLMs获得的结果不一致,以及推理时间相对较长,每张图像平均需要几秒钟。虽然像BitNet或AVLM剪枝等方法可以加速推理时间,但这些优化超出了本文的范围(Shang et al., 2024;Wang et al., 2023)。此外,我们还观察到一些失败的案例,主要是由于逻辑不一致引起的,详见附录A.3。最后,尽管使用了Guided CoT,我们的提示仍然需要少量的手动文本输入,但我们注意到,精心设计的提示可以重用,并且每个AD任务只需定义一次。

    结论

    本文提出了一种利用从AVLMs中提取的文本进行异常检测(AD)的新型框架。通过结合Guided CoT、ROI和文本格式化,我们的方法充分利用了AVLMs强大的逻辑理解能力,在逻辑AD中取得了显著的单次学习(one-shot)性能,并在最新的逻辑AD基准测试中大幅超越了SOTA方法。LogicAD还集成了定理证明器,用于预测逻辑异常并提供相应的解释,从而增强了模型的可解释性。我们的工作探索了AD中的一个新方向,证明了利用文本特征在逻辑AD中特别有效。未来,我们计划通过精调和提炼含有逻辑相关数据的AVLMs,发展出一个完全自动化的提示过程,以减少推理时间,同时增强逻辑理解能力。

    本文仅做学术分享,如有侵权,请联系删文。

    3D视觉交流群,成立啦!

    目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

    工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。







    请到「今天看啥」查看全文