遇见AnomalyGPT:一种基于大型视觉-语言模型(LVLM)的新型IAD方法,用于检测工业异常

新型IAD方法AnomalyGPT,用于检测工业异常,基于大型视觉-语言模型LVLM

在各种自然语言处理(NLP)任务中,如GPT-3.5和LLaMA等大型语言模型(LLMs)表现出色。最近,通过将视觉信息与文本特征对齐的前沿技术(如MiniGPT-4、BLIP-2和PandaGPT)扩展了LLMs解释视觉信息的能力,为人工通用智能(AGI)领域带来了巨大的变革。尽管LVLMs在网络上的大量数据上进行了预训练,但它们在IAD任务中的潜力受到限制。此外,它们的领域特定知识只有适度发展,并且需要更敏感地识别对象内部的局部特征。IAD任务试图在工业产品的照片中找出和定位异常。

模型必须仅在正常样本上进行训练,以识别与正常样本有所不同的异常样本,因为真实世界的例子很少且不可预测。大多数当前的IAD系统只为测试样本提供异常得分,并要求手动定义用于区分正常和异常实例的标准,使它们不适用于实际生产环境。中国科学院、中国科学院大学、Objecteye公司和武汉AI研究的研究人员提出了一种基于LVLM的独特IAD方法AnomalyGPT,如图1所示,既有的IAD方法也不能充分处理IAD问题。AnomalyGPT无需手动阈值调整即可识别异常及其位置。

图1显示了我们的AnomalyGPT与现有的IAD技术和LVLMs的比较。

此外,他们的方法可以提供图片信息并促进交互式交流,允许用户根据自己的需求和回应提出后续查询。只需要几个正常样本,AnomalyGPT还可以在上下文中进行学习,以便快速调整到新的对象。他们使用合成的异常视觉-文本数据和结合IAD专业知识来优化LVLM。然而,直接使用IAD数据进行训练仍然需要改进。首先是数据稀缺性。预训练于160k张带有相关多轮对话的照片,包括LLaVA和PandaGPT等技术。然而,当前可用的IAD数据集的样本量较小,直接微调容易过拟合和灾难性遗忘。

为了解决这个问题,他们使用提示嵌入而不是参数微调来微调LVLM。在图片输入之后,插入更多的提示嵌入,将额外的IAD信息添加到LVLM中。第二个困难与细粒度语义有关。他们建议使用基于视觉-文本特征匹配的简单解码器来获得像素级的异常定位结果。解码器的输出通过提示嵌入提供给LVLM和原始测试图片。这使得LVLM可以同时使用原始图像和解码器的输出来识别异常,提高判断的准确性。他们进行了全面的实验,在MVTec-AD和VisA数据库上进行了测试。

在MVTec-AD数据集上进行无监督训练,他们实现了93.3%的准确率,97.4%的图像级AUC和93.1%的像素级AUC。将一次性转移到VisA数据集时,他们实现了77.4%的准确率,87.4%的图像级AUC和96.2%的像素级AUC。另一方面,在VisA数据集上进行无监督训练后,将一次性转移到MVTec-AD数据集时,实现了86.1%的准确率,94.1%的图像级AUC和95.3%的像素级AUC。

以下是他们的贡献摘要:

• 他们提出了使用LVLM处理IAD任务的创新方法。他们的方法促进了多轮讨论,能够检测和定位异常,无需手动调整阈值。他们的工作采用了轻量级、基于视觉-文本特征匹配的解码器,解决了LLM在细粒度语义辨别能力较弱的限制,并缓解了LLM生成文本输出的能力受限。据他们所知,他们是首次成功将LVLM应用于工业异常检测。

• 为了保留LVLM的内在能力并实现多轮对话,他们与LVLM预训练过程中使用的数据同时训练模型,并使用提示嵌入进行微调。

• 他们的方法具有很强的可迁移性,在新数据集上可以进行上下文少样本学习,产生出色的结果。