专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

多模态大语言模型能否指导改进工业异常检测？

计算机视觉工坊 · 公众号 · · 2025-01-30 00:12

正文

请到「今天看啥」查看全文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection?

作者：Zhiling Chen, Hanning Chen, Mohsen Imani, Farhad Imani

机构：University of Connecticut、University of California Irvine

原文链接：https://arxiv.org/abs/2501.15795

1. 导读

在工业环境中，准确检测异常对于保持产品质量和确保操作安全至关重要。传统的工业异常检测(IAD)模型通常难以适应灵活性和适应性，尤其是在新的缺陷类型和操作变化频繁出现的动态生产环境中。多模态大型语言模型(MLLMs)的最新进展有望通过结合视觉和文本信息处理能力来克服这些限制。由于MLLMs在大型、多样化数据集上的训练，它们在一般视觉理解方面表现出色，但它们缺乏特定领域的知识，例如特定行业的缺陷容忍水平，这限制了它们在IAD任务中的有效性。为了应对这些挑战，我们提出了Echo，一种新的多专家框架，旨在增强IAD的MLLM性能。Echo集成了四个专家模块:Reference Extractor，它通过检索相似的正常图像来提供上下文基线Knowledge Guide，它提供特定领域的见解Reasoning Expert，它为复杂的查询提供结构化的逐步推理Decision Maker，它综合所有模块的信息来提供精确的上下文感知响应。在MMAD基准测试中，Echo在适应性、精度和鲁棒性方面都有显著提高，更接近于满足现实世界工业异常检测的需求。

2. 效果展示

直接向MLLM提供查询图像和问题可能会(a)导致幻觉或错误的输出。(b)通过处理查询图像和问题，通过我们的Echo框架，该框架集成了参考图像、外部知识、CoT推理和决策模块，系统可以生成准确的输出。

3. 主要贡献

总之，本文的主要贡献是:

我们提出Echo，这是一个创新的多专家框架，专门设计用于增强工业异常检测的MLLMS，它集成了四个专家模块--参考提取器、知识指南、推理专家和决策者，旨在满足工业环境中精细异常检测的细微要求。

通过结合任务特定知识、多模态重构和结构化推理Echo增强了MLLMS在复杂IAD任务中的安全性和可解释性。

通过协调使用专家模块，Echo实现了高度的鲁棒性和精度，以符合工业应用所需的高标准。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解。

我们在MMAD基准上的MVTec-AD和VisA数据集上对Echo进行了广泛的评估，结果表明，我们的方法显著优于现有的开源MLLMS，并为工业异常检测的准确性和有效性设定了新的标准。

4. 方法

为了克服MLLMS在视觉异常检测中面临的挑战我们引入了Echo，这是一个多专家框架，结合了知识生成器、多模态检索器和决策生成器以增强MLLMS在各种异常检测任务中的能力。我们概述了Echo的总体架构。然后，我们详细描述了每个核心组件:知识生成、多模态检索器和决策生成。

如图3所示，我们针对Echo中的每个专家模块提供了详细的特性信息，旨在根据问题的具体需求向每个专家模块分配任务，具体如下：

知识指南：该模块整合了特定上下文的知识，用于指导检测到的缺陷的分析和解释。如图2❹所示，当模型接收到诸如“缺陷的类型是什么？”之类的问题时，知识指南会根据查询图像和问题从内存M中检索特定上下文的信息，确保Echo的回答符合工业领域的法规和实践标准。

参考提取器：该模块通过将查询图像与正常、无缺陷图像的存储库进行比较来评估查询图像，以识别可能表明异常的细微偏差。如图2❹所示，当模型接收到查询图像和问题时，它使用相同的CLIP编码器来提取查询图像的嵌入，并根据余弦相似性从内存M中检索最相似的正常图像，为MLLM（多模态大型语言模型）的缺陷容差评估提供参考。

推理专家：该模块通过逻辑演绎和结构化分析来解决需要多步推理的复杂问题，如“缺陷的可能原因是什么？”，这使得Echo能够系统地处理每个问题，通过综合系统内各种来源的信息来模拟熟练检查员的认知过程。

决策者：该模块综合其他专家模块的见解，就正确答案做出最终、明确的决策。对于诸如“哪个选项最能描述物体中的缺陷？”之类的问题，决策者会整合参考样本、外部知识和详细观察的信息，以提供简洁而明确的回答。

5. 实验结果

6. 总结 & 未来工作

在本文中，我们介绍了一种名为Echo的多专家框架，旨在增强MLLM在工业异常检测方面的能力。通过关注视觉信息在决策过程中的关键作用，我们的工作强调了决策阶段融入视觉线索的重要性，有效减少了VLM（视觉语言模型）中可能出现的幻觉问题。Echo框架的新颖性还在于其能够使MLLM模仿领域专家的功能，从而获得高级上下文信息，并促进更合理、深入的推理过程。在涉及复杂工业异常检测任务的MVTec-AD和VisA等具有挑战性的基准测试中，Echo已展现出卓越的适应性和有效性，凸显了其在解决各种工业领域现实挑战方面的强大潜力。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网： www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 、 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真 、 C++、三维视觉python、dToF、相机标定、ROS2 、 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里 👇 关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

多模态大语言模型能否指导改进工业异常检测？

正文

请到「今天看啥」查看全文

0. 论文信息

1. 导读

2. 效果展示

3. 主要贡献

4. 方法

(adsbygoogle = window.adsbygoogle || []).push({}); 5. 实验结果

6. 总结 & 未来工作

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

请到「今天看啥」查看全文

5. 实验结果