AnomalyGPT Détection d’anomalies industrielles à l’aide de LVLM

AnomalyGPT - Détection d'anomalies industrielles avec LVLM

Récemment, les grands modèles de langage visionnaire (LVLM) tels que LLava et MiniGPT-4 ont démontré la capacité à comprendre les images et à atteindre une précision et une efficacité élevées dans plusieurs tâches visuelles. Bien que les LVLM excellent dans la reconnaissance des objets courants grâce à leurs ensembles de données d’entraînement étendus, ils manquent de connaissances spécifiques dans un domaine particulier et ont une compréhension limitée des détails localisés dans les images. Cela limite leur efficacité dans les tâches de détection d’anomalies industrielles (IAD). D’un autre côté, les cadres IAD existants ne peuvent identifier que les sources d’anomalies et nécessitent des réglages de seuil manuels pour distinguer les échantillons normaux des échantillons anormaux, ce qui limite leur mise en œuvre pratique.

L’objectif principal d’un cadre IAD est de détecter et de localiser les anomalies dans les scénarios industriels et les images de produits. Cependant, en raison de l’imprévisibilité et de la rareté des échantillons d’images du monde réel, les modèles sont généralement entraînés uniquement sur des données normales. Ils différencient les échantillons anormaux des échantillons normaux en fonction des écarts par rapport aux échantillons typiques. Actuellement, les cadres et les modèles IAD fournissent principalement des scores d’anomalie pour les échantillons de test. De plus, distinguer les instances normales des instances anormales pour chaque classe d’éléments nécessite la spécification manuelle de seuils, ce qui les rend inadaptés aux applications du monde réel.

Pour explorer l’utilisation et la mise en œuvre des grands modèles de langage visionnaire pour relever les défis posés par les cadres IAD, AnomalyGPT, une nouvelle approche IAD basée sur LVLM, a été introduite. AnomalyGPT peut détecter et localiser des anomalies sans nécessiter de réglages de seuil manuels. De plus, AnomalyGPT peut également fournir des informations pertinentes sur l’image pour interagir avec les utilisateurs, leur permettant de poser des questions supplémentaires basées sur l’anomalie ou leurs besoins spécifiques.

Détection d’anomalies industrielles et grands modèles de langage visionnaire

Les cadres IAD existants peuvent être catégorisés en deux catégories. 

  1. IAD basée sur la reconstruction. 
  2. IAD basée sur l’encodage des caractéristiques. 

Dans un cadre IAD basé sur la reconstruction, l’objectif principal est de reconstruire des échantillons anormaux à partir de leurs équivalents normaux respectifs et de détecter les anomalies en calculant l’erreur de reconstruction. SCADN, RIAD, AnoDDPM et InTra utilisent différentes structures de reconstruction allant des réseaux antagonistes génératifs (GAN) et des autoencodeurs aux modèles de diffusion et aux transformateurs. 

D’un autre côté, dans un cadre IAD basé sur l’encodage des caractéristiques, l’objectif principal est de se concentrer sur la modélisation de l’encodage des caractéristiques des données normales. Des méthodes telles que PatchSSVD tentent de trouver une hypersphère capable d’encapsuler étroitement les échantillons normaux, tandis que des cadres tels que PyramidFlow et Cfl projettent des échantillons normaux sur une distribution gaussienne à l’aide de flux de normalisation. Les cadres CFA et PatchCore ont établi une banque de mémoire d’échantillons normaux à partir des encodages de patch et utilisent la distance entre l’encodage de l’échantillon de test et l’encodage normal pour détecter les anomalies. 

Ces deux méthodes suivent le principe “une classe, un modèle”, un paradigme d’apprentissage qui nécessite une grande quantité d’échantillons normaux pour apprendre les distributions de chaque classe d’objet. La nécessité d’une grande quantité d’échantillons normaux les rend impraticables pour les nouvelles catégories d’objets et a des applications limitées dans les environnements de produits dynamiques. En revanche, le cadre AnomalyGPT utilise un paradigme d’apprentissage en contexte pour les catégories d’objets, ce qui lui permet de n’interférer qu’avec une poignée d’échantillons normaux. 

Ensuite, nous avons les grands modèles de langage visionnaire ou LVLM. Les LLM ou grands modèles de langage ont connu un immense succès dans l’industrie du traitement du langage naturel (NLP), et ils sont maintenant explorés pour leurs applications dans les tâches visuelles. Le cadre BLIP-2 tire parti de Q-former pour entrer des caractéristiques visuelles provenant de Vision Transformer dans le modèle Flan-T5. De plus, le cadre MiniGPT connecte le segment d’image du cadre BLIP-2 et le modèle Vicuna avec une couche linéaire et effectue un processus de réglage en deux étapes à l’aide de données image-texte. Ces approches indiquent que les cadres LLM pourraient avoir certaines applications pour les tâches visuelles. Cependant, ces modèles ont été entraînés sur des données générales et ils ne possèdent pas l’expertise spécifique au domaine requise pour des applications généralisées. 

Comment fonctionne AnomalyGPT ?

AnomalyGPT est essentiellement un nouveau modèle de langage visionnaire conversationnel IAD conçu principalement pour détecter les anomalies industrielles et localiser précisément leur emplacement exact à l’aide d’images. Le cadre AnomalyGPT utilise un LVLM et un encodeur d’image pré-entraîné pour aligner les images avec leurs descriptions textuelles correspondantes en utilisant des données d’anomalie stimulées. Le modèle introduit un module de décodage et un module d’apprentissage de la requête pour améliorer les performances des systèmes IAD et obtenir une sortie de localisation au niveau des pixels. 

Architecture du modèle

L’image ci-dessus représente l’architecture d’AnomalyGPT. Le modèle envoie d’abord l’image de la requête à l’encodeur d’image congelé. Le modèle extrait ensuite des caractéristiques au niveau des patchs à partir des couches intermédiaires, et alimente ces caractéristiques à un décodeur d’image pour calculer leur similarité avec des textes anormaux et normaux afin d’obtenir les résultats de localisation. L’apprenant de prompte les convertit ensuite en embeddings de prompte qui conviennent pour être utilisés en tant qu’entrées dans le LLM avec les entrées textuelles de l’utilisateur. Le modèle LLM utilise ensuite les embeddings de prompte, les entrées d’image et les entrées textuelles fournies par l’utilisateur pour détecter les anomalies, localiser leur emplacement et créer des réponses finales pour l’utilisateur.

Décodeur

Pour parvenir à une localisation des anomalies au niveau des pixels, le modèle AnomalyGPT déploie un décodeur d’image basé sur la correspondance des caractéristiques léger qui prend en charge à la fois les cadres d’apprentissage peu nombreux et les cadres d’apprentissage non supervisés. La conception du décodeur utilisé dans AnomalyGPT s’inspire des cadres WinCLIP, PatchCore et APRIL-GAN. Le modèle divise l’encodeur d’image en 4 étapes, et extrait les caractéristiques intermédiaires au niveau des patchs à chaque étape.

Cependant, ces caractéristiques intermédiaires n’ont pas été soumises à l’alignement final de l’image-texte, c’est pourquoi elles ne peuvent pas être comparées directement avec des caractéristiques. Pour résoudre ce problème, le modèle AnomalyGPT introduit des couches supplémentaires pour projeter les caractéristiques intermédiaires et les aligner avec les caractéristiques textuelles qui représentent la sémantique normale et anormale.

Apprenant de prompte

Le cadre AnomalyGPT introduit un apprenant de prompte qui tente de transformer le résultat de localisation en embeddings de prompte pour exploiter des sémantiques fines à partir des images, tout en maintenant la cohérence sémantique entre les sorties du décodeur et du LLM. De plus, le modèle intègre des embeddings de prompte apprenables, indépendants des sorties du décodeur, dans l’apprenant de prompte pour fournir des informations supplémentaires pour la tâche d’IAI. Enfin, le modèle envoie les embeddings et les informations d’image d’origine au LLM.

L’apprenant de prompte se compose d’embeddings de prompte de base apprenables et d’un réseau neuronal convolutif. Le réseau convertit le résultat de localisation en embeddings de prompte, et forme un ensemble d’embeddings de prompte qui sont ensuite combinés avec les embeddings d’image dans le LLM.

Simulation d’anomalies

Le modèle AnomalyGPT adopte la méthode NSA pour simuler des données anormales. La méthode NSA utilise la technique de découpage-collage en utilisant la méthode d’édition d’image de Poisson pour atténuer la discontinuité introduite par le collage de segments d’image. Le découpage-collage est une technique couramment utilisée dans les cadres d’IAI pour générer des images d’anomalies simulées.

La méthode de découpage-collage consiste à découper une région de bloc dans une image de manière aléatoire, et à la coller à un emplacement aléatoire dans une autre image, créant ainsi une partie d’anomalie simulée. Ces échantillons d’anomalie simulée peuvent améliorer les performances des modèles d’IAI, mais ils présentent un inconvénient, car ils peuvent souvent produire des discontinuités visibles. La méthode d’édition de Poisson vise à cloner sans couture un objet d’une image à une autre en résolvant les équations aux dérivées partielles de Poisson.

L’image ci-dessus illustre la comparaison entre l’édition de Poisson et le découpage-collage d’images. Comme on peut le voir, il y a des discontinuités visibles dans la méthode de découpage-collage, tandis que les résultats de l’édition de Poisson semblent plus naturels.

Contenu de question et réponse

Pour effectuer un réglage du prompte sur le modèle de langage de vision large, le modèle AnomalyGPT génère une requête textuelle correspondante sur la base de l’image d’anomalie. Chaque requête se compose de deux composants majeurs. La première partie de la requête consiste en une description de l’image d’entrée qui fournit des informations sur les objets présents dans l’image ainsi que leurs attributs attendus. La deuxième partie de la requête consiste à détecter la présence d’anomalies dans l’objet, ou à vérifier s’il y a une anomalie dans l’image.

Le LVLM répond d’abord à la question de savoir s’il y a une anomalie dans l’image? Si le modèle détecte des anomalies, il continue à spécifier l’emplacement et le nombre de zones anormales. Le modèle divise l’image en une grille de 3×3 régions distinctes pour permettre au LVLM d’indiquer verbalement la position des anomalies comme indiqué dans la figure ci-dessous.

Le modèle LVLM reçoit les connaissances descriptives de l’entrée ainsi que des connaissances fondamentales de l’image d’entrée qui aident le modèle à mieux comprendre les composants de l’image.

Ensembles de données et métriques d’évaluation

Le modèle mène ses expériences principalement sur les ensembles de données VisA et MVTec-AD. L’ensemble de données MVTech-AD se compose de 3629 images à des fins de formation et de 1725 images à des fins de test réparties dans 15 catégories différentes, ce qui en fait l’un des ensembles de données les plus populaires pour les cadres IAD. Les images d’entraînement présentent uniquement des images normales, tandis que les images de test présentent à la fois des images normales et anormales. D’autre part, l’ensemble de données VisA se compose de 9621 images normales et près de 1200 images anormales réparties dans 12 catégories différentes.

Ensuite, tout comme le cadre IAD existant, le modèle AnomalyGPT utilise l’AUC (Area Under the Receiver Operating Characteristics) comme métrique d’évaluation, avec l’AUC au niveau des pixels et au niveau des images utilisée pour évaluer respectivement les performances de localisation des anomalies et de détection des anomalies. Cependant, le modèle utilise également l’exactitude au niveau des images pour évaluer les performances de son approche proposée, car cela permet de déterminer la présence d’anomalies sans nécessiter la configuration manuelle des seuils.

Résultats

Résultats quantitatifs

Détection d’anomalies industrielles à quelques échantillons

Le modèle AnomalyGPT compare ses résultats à ceux des cadres IAD à quelques échantillons précédents, tels que PaDiM, SPADE, WinCLIP et PatchCore, utilisés comme références.

La figure ci-dessus compare les résultats du modèle AnomalyGPT par rapport aux cadres IAD à quelques échantillons. Sur les deux ensembles de données, la méthode suivie par AnomalyGPT surpasse les approches adoptées par les modèles précédents en termes d’AUC au niveau des images et retourne également une bonne précision.

Détection d’anomalies industrielles non supervisée

Dans un cadre d’entraînement non supervisé avec un grand nombre d’échantillons normaux, AnomalyGPT entraîne un seul modèle sur des échantillons obtenus dans toutes les classes d’un ensemble de données. Les développeurs d’AnomalyGPT ont opté pour le cadre UniAD car il est entraîné dans la même configuration et servira de référence pour la comparaison. De plus, le modèle est également comparé aux cadres JNLD et PaDim utilisant la même configuration unifiée.

La figure ci-dessus compare les performances d’AnomalyGPT par rapport à d’autres cadres.

Résultats qualitatifs

L’image ci-dessus illustre les performances du modèle AnomalyGPT dans la méthode de détection d’anomalies non supervisée, tandis que la figure ci-dessous montre les performances du modèle dans l’apprentissage en contexte à 1 échantillon.

Le modèle AnomalyGPT est capable d’indiquer la présence d’anomalies, de marquer leur emplacement et de fournir des résultats de localisation au niveau des pixels. Lorsque le modèle est en méthode d’apprentissage en contexte à 1 échantillon, les performances de localisation du modèle sont légèrement inférieures par rapport à la méthode d’apprentissage non supervisée en raison de l’absence d’entraînement.

Conclusion

AnomalyGPT est un nouveau modèle de langage vision IAD conversationnel conçu pour exploiter les puissantes capacités des grands modèles de langage vision. Il peut non seulement identifier les anomalies dans une image, mais également déterminer précisément leur emplacement. De plus, AnomalyGPT facilite les dialogues à plusieurs tours axés sur la détection des anomalies et affiche des performances exceptionnelles dans l’apprentissage en contexte à quelques échantillons. AnomalyGPT explore les applications potentielles des LVLM dans la détection d’anomalies, introduisant de nouvelles idées et possibilités pour l’industrie de l’IAD.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de Cambridge développent l'incertitude dans les systèmes d'apprentissage automatique

Dans un monde d’incertitudes humaines, embrasser l’incertitude pourrait aider les machines et les humains...

AI

L'IA Deblur de Google Rendez vos images plus nettes

Dans notre ère numérique en constante évolution, où la capture et le partage de moments à travers la photographie son...

AI

Découvrez PyGraft un outil d'IA basé sur Python, open source, qui génère des schémas et des graphes de connaissances hautement personnalisés et agnostiques du domaine.

Une méthode de plus en plus populaire pour représenter des données dans une structure de graphe est l’utilisati...

AI

5 raisons pour lesquelles les grands modèles de langage (LLM) comme ChatGPT utilisent l'apprentissage par renforcement plutôt que l'apprentissage supervisé pour le finetuning

Avec le succès retentissant de l’Intelligence Artificielle Générative ces derniers mois, les Modèles de Langage...

AI

Top 12 générateurs de musique IA en 2023

La génération de musique par IA est le processus d’utilisation de techniques d’intelligence artificielle ...