Cet outil d’IA explique comment l’IA voit les images et pourquoi elle pourrait confondre un astronaute avec une pelle.
Cet outil d'IA explique comment l'IA voit les images et pourquoi elle peut confondre un astronaute avec une pelle.
Il est largement reconnu que l’intelligence artificielle (IA) a fait d’énormes progrès ces dernières années, conduisant à des réalisations remarquables et à des résultats révolutionnaires. Cependant, il n’est pas vrai que l’IA puisse obtenir des résultats tout aussi impressionnants dans toutes les tâches. Par exemple, bien que l’IA puisse surpasser les performances humaines dans certaines tâches visuelles, telles que la reconnaissance faciale, elle peut également présenter des erreurs déconcertantes dans le traitement et la classification des images, mettant ainsi en évidence la nature complexe de la tâche à accomplir. En conséquence, comprendre le fonctionnement interne de ces systèmes pour la tâche concernée et la manière dont ils parviennent à certaines décisions est devenu un sujet d’intérêt et d’investigation majeur parmi les chercheurs et les développeurs. On sait que, tout comme le cerveau humain, les systèmes d’IA utilisent des stratégies d’analyse et de catégorisation des images. Cependant, les mécanismes précis derrière ces processus restent énigmatiques, ce qui donne lieu à un modèle de boîte noire.
Ainsi, il y a une demande croissante de méthodes d’explicabilité pour interpréter les décisions prises par les modèles modernes d’apprentissage automatique, en particulier les réseaux neuronaux. Dans ce contexte, les méthodes d’attribution, qui génèrent des cartes thermiques indiquant l’importance des pixels individuels dans l’influence d’une décision du modèle, ont gagné en popularité. Cependant, des recherches récentes ont mis en lumière les limites de ces méthodes, car elles ont tendance à se concentrer uniquement sur les régions les plus saillantes d’une image, révélant où le modèle regarde sans élucider ce que le modèle perçoit dans ces zones. Ainsi, pour démystifier les réseaux neuronaux profonds et découvrir les stratégies utilisées par les systèmes d’IA pour traiter les images, une équipe de chercheurs de l’Institut de sciences cérébrales Carney de l’Université Brown et des informaticiens de l’Institut d’intelligence artificielle et naturelle de Toulouse, en France, ont collaboré pour développer CRAFT (Concept Recursive Activation FacTorization for Explainability). Cet outil innovant vise à discerner le “quoi” et le “où” sur lesquels un modèle d’IA se concentre lors du processus de prise de décision, mettant ainsi l’accent sur les différences dans la manière dont le cerveau humain et un système de vision par ordinateur comprennent l’information visuelle. L’étude a également été présentée lors de la prestigieuse Conférence sur la vision par ordinateur et la reconnaissance des formes, 2023, qui s’est tenue au Canada.
Comme mentionné précédemment, comprendre comment les systèmes d’IA prennent des décisions en utilisant des régions spécifiques d’une image à l’aide de méthodes d’attribution a été difficile. Cependant, simplement identifier les régions influentes sans clarifier pourquoi ces régions sont cruciales ne suffit pas à fournir une explication complète aux humains. CRAFT remédie à cette limitation en exploitant les techniques modernes d’apprentissage automatique pour dévoiler les représentations visuelles complexes et multidimensionnelles apprises par les réseaux neuronaux. Afin d’améliorer la compréhension, les chercheurs ont développé un site web convivial où les individus peuvent facilement explorer et visualiser ces concepts fondamentaux utilisés par les réseaux neuronaux pour classer les objets. De plus, les chercheurs ont également souligné qu’avec l’introduction de CRAFT, les utilisateurs non seulement acquièrent des connaissances sur les concepts utilisés par un système d’IA pour construire une image et comprendre ce que le modèle perçoit dans des zones spécifiques, mais ils comprennent également le classement hiérarchique de ces concepts. Cette avancée révolutionnaire offre une ressource précieuse pour démystifier le processus de prise de décision des systèmes d’IA et améliorer la transparence de leurs résultats de classification.
- Qu’est-ce qu’un circuit intégré programmable sur le terrain (FPGA) FPGA vs GPU pour l’intelligence artificielle (IA)
- Google AI présente les plugins de diffusion MediaPipe qui permettent la génération de texte vers image contrôlable sur l’appareil.
- Salesforce présente XGen-7B un nouveau modèle LLM de 7B entraîné sur des séquences allant jusqu’à 8K pour 1,5T jetons.
En essence, les principales contributions du travail réalisé par les chercheurs peuvent être résumées en trois points principaux. Tout d’abord, l’équipe a élaboré une approche récursive pour identifier et décomposer efficacement les concepts à travers plusieurs couches. Cette stratégie innovante permet de comprendre de manière exhaustive les composants sous-jacents du réseau neuronal. Deuxièmement, une méthode révolutionnaire a été introduite pour estimer avec précision l’importance des concepts grâce à l’utilisation des indices de Sobol. Enfin, l’implémentation de la différentiation implicite a révolutionné la création de cartes d’attribution de concepts, débloquant ainsi un outil puissant pour visualiser et comprendre l’association entre les concepts et les caractéristiques au niveau des pixels. De plus, l’équipe a réalisé une série d’évaluations expérimentales pour étayer l’efficacité et l’importance de leur approche. Les résultats ont révélé que CRAFT surpasse toutes les autres méthodes d’attribution, solidifiant ainsi son utilité remarquable et s’établissant comme une pierre angulaire de la recherche future dans les méthodes d’explicabilité basées sur les concepts.
Les chercheurs ont également souligné l’importance de comprendre comment les ordinateurs perçoivent les images. En acquérant des connaissances approfondies sur les stratégies visuelles utilisées par les systèmes d’IA, les chercheurs obtiennent un avantage compétitif pour améliorer la précision et les performances des outils basés sur la vision. De plus, cette compréhension s’avère bénéfique contre les attaques adverses et les cyberattaques en aidant les chercheurs à comprendre comment les attaquants peuvent tromper les systèmes d’IA grâce à des altérations subtiles des intensités de pixels de manière à peine perceptible pour les humains. En ce qui concerne les travaux futurs, les chercheurs sont enthousiasmés par le jour où les systèmes de vision par ordinateur pourraient surpasser les capacités humaines. Avec la possibilité de relever des défis non résolus tels que le diagnostic du cancer, la reconnaissance des fossiles, etc., l’équipe croit fermement que ces systèmes ont le potentiel de transformer de nombreux domaines.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Transformation de l’interaction de l’IA LLaVAR surclasse dans la compréhension visuelle et textuelle, marquant une nouvelle ère dans les modèles d’instruction multimodale.
- Les LLM peuvent-ils générer des preuves mathématiques qui peuvent être rigoureusement vérifiées ? Découvrez LeanDojo un terrain de jeu d’IA open-source avec des outils, des références et des modèles pour les grands modèles de langage afin de prouver des théorèmes formels dans l’assistant de preuve Lean.
- Baidu Ernie 3.5 émerge en tant que champion de l’IA de langue chinoise mais est-il vraiment meilleur que ChatGPT ?
- Approches d’apprentissage en contexte dans les grands modèles linguistiques
- Contextual AI présente LENS un cadre d’intelligence artificielle pour les modèles de langue augmentés par la vision qui surpasse Flamingo de 9% (56->65%) sur VQAv2.
- Avec cinq nouveaux modèles multimodaux à travers les échelles 3B, 4B et 9B, l’équipe OpenFlamingo publie OpenFlamingo v2 qui surpasse le modèle précédent.
- Unity annonce la sortie de Muse une plateforme de jeux vidéo de texte-à-vidéo qui vous permet de créer des textures, des sprites et des animations avec le langage naturel.