Les chercheurs de Microsoft présentent InstructDiffusion un cadre d’IA unificateur et générique pour aligner les tâches de vision par ordinateur avec les instructions humaines.
Les chercheurs de Microsoft présentent InstructDiffusion, un cadre d'IA pour aligner les tâches de vision par ordinateur avec les instructions humaines.
Dans une avancée révolutionnaire vers des modèles de vision généralistes adaptables, des chercheurs du Microsoft Research Asia ont dévoilé InstructDiffusion. Ce cadre novateur révolutionne le paysage de la vision par ordinateur en fournissant une interface unifiée pour une multitude de tâches de vision. L’article “InstructDiffusion: Une interface de modélisation généraliste pour les tâches de vision” présente un modèle capable de gérer simultanément diverses applications de vision de manière transparente.
Le cœur d’InstructDiffusion repose sur une approche novatrice : formuler les tâches de vision comme des processus de manipulation d’images intuitifs pour les êtres humains. Contrairement aux méthodes conventionnelles qui reposent sur des espaces de sortie prédéfinis, tels que des catégories ou des coordonnées, InstructDiffusion fonctionne dans un espace de pixels flexible, se rapprochant ainsi davantage de la perception humaine.
Le modèle est conçu pour modifier les images d’entrée en fonction des instructions textuelles fournies par l’utilisateur. Par exemple, une directive telle que “encercler l’œil droit de l’homme en rouge” permet au modèle d’effectuer des tâches telles que la détection de points clés. En même temps, des instructions comme “appliquer un masque bleu au chien le plus à droite” servent à la segmentation.
- Affiner Llama 2 70B en utilisant PyTorch FSDP
- Application des statistiques descriptives et inférentielles en Python
- Stability AI lance le premier modèle japonais de vision-langage
A la base de ce cadre se trouvent les modèles probabilistes de diffusion de débruitage (DDPM), qui génèrent des sorties de pixels. Les données d’entraînement comprennent des triplets, chacun composé d’une instruction, d’une image source et d’une image de sortie cible. Le modèle est conçu pour aborder trois types principaux de sortie : images RVB, masques binaires et points clés. Cela couvre un large éventail de tâches de vision, notamment la segmentation, la détection de points clés, l’édition et l’amélioration d’images.
Détection de points clés

Segmentation

Édition d’images
Tâches de bas niveau
Les expériences démontrent l’efficacité d’InstructDiffusion, surclassant les modèles spécialisés dans les tâches individuelles. Cependant, la véritable merveille réside dans sa capacité de généralisation. Il présente la caractéristique emblématique souvent associée à l’intelligence artificielle générale (AGI), s’adaptant avec compétence aux tâches non rencontrées lors de l’entraînement. Cela marque une avancée significative vers un cadre unifié et flexible pour la vision par ordinateur, prêt à faire progresser l’ensemble du domaine.
Une révélation clé a été que la formation simultanée du modèle sur des tâches diverses a notablement amplifié sa capacité à se généraliser à des scénarios nouveaux. InstructDiffusion a fait preuve d’une remarquable efficacité sur les ensembles de données HumanArt et AP-10K pour la détection de points clés, malgré des distributions de données distinctes par rapport aux données d’entraînement.
L’équipe de recherche a souligné l’importance critique d’instructions très détaillées pour améliorer les capacités de généralisation du modèle. De simples noms de tâches tels que “segmentation sémantique” se sont révélés insuffisants, donnant des performances médiocres, en particulier sur des types de données nouveaux. Cela souligne la capacité d’InstructDiffusion à saisir les significations et les intentions spécifiques derrière des instructions détaillées plutôt que de se fier à la mémorisation.
En mettant l’accent sur la compréhension plutôt que sur la mémorisation, InstructDiffusion apprend des concepts visuels robustes et des significations sémantiques. Cette distinction est cruciale pour comprendre ses remarquables capacités de généralisation. Par exemple, une instruction telle que “encercler l’oreille gauche du chat en rouge” permet au modèle de distinguer des éléments spécifiques, tels que “chat”, “oreille gauche” et “cercle rouge”, démontrant ainsi sa compréhension fine.
Ce développement révolutionnaire propulse les modèles de vision par ordinateur vers la polyvalence généraliste, reflétant la perception humaine. L’interface d’InstructDiffusion introduit une flexibilité et une interactivité absentes dans la plupart des systèmes de vision actuels, comblant ainsi le fossé entre la compréhension humaine et celle de la machine en vision par ordinateur. Les implications de cette recherche sont profondes, car elle ouvre la voie au développement d’agents de vision polyvalents, capables de multiples utilisations, démontrant ainsi son potentiel pour propulser l’intelligence visuelle générale vers de nouveaux sommets.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Découvrez PyGraft un outil d’IA basé sur Python, open source, qui génère des schémas et des graphes de connaissances hautement personnalisés et agnostiques du domaine.
- Les grands modèles de langage peuvent-ils vraiment faire des mathématiques ? Cette recherche sur l’intelligence artificielle présente MathGLM un modèle robuste pour résoudre des problèmes mathématiques sans calculatrice.
- A. Michael West Faire progresser les interactions homme-robot dans les soins de santé
- Aider les modèles de vision par ordinateur et de langage à comprendre ce qu’ils voient
- Les robots quadrupèdes à bas coût peuvent-ils maîtriser le Parkour ? Révélation d’un système d’apprentissage révolutionnaire pour le mouvement robotique agile
- La longue attente pour Jurassic Park est-elle enfin terminée ? Ce modèle d’IA utilise la traduction d’image en image pour donner vie aux fossiles anciens.
- Exploiter la neuroévolution pour l’innovation en IA