Les chercheurs de Microsoft présentent InstructDiffusion un cadre d’IA unificateur et générique pour aligner les tâches de vision par ordinateur avec les instructions humaines.

Les chercheurs de Microsoft présentent InstructDiffusion, un cadre d'IA pour aligner les tâches de vision par ordinateur avec les instructions humaines.

Dans une avancée révolutionnaire vers des modèles de vision généralistes adaptables, des chercheurs du Microsoft Research Asia ont dévoilé InstructDiffusion. Ce cadre novateur révolutionne le paysage de la vision par ordinateur en fournissant une interface unifiée pour une multitude de tâches de vision. L’article “InstructDiffusion: Une interface de modélisation généraliste pour les tâches de vision” présente un modèle capable de gérer simultanément diverses applications de vision de manière transparente.

Le cœur d’InstructDiffusion repose sur une approche novatrice : formuler les tâches de vision comme des processus de manipulation d’images intuitifs pour les êtres humains. Contrairement aux méthodes conventionnelles qui reposent sur des espaces de sortie prédéfinis, tels que des catégories ou des coordonnées, InstructDiffusion fonctionne dans un espace de pixels flexible, se rapprochant ainsi davantage de la perception humaine.

Le modèle est conçu pour modifier les images d’entrée en fonction des instructions textuelles fournies par l’utilisateur. Par exemple, une directive telle que “encercler l’œil droit de l’homme en rouge” permet au modèle d’effectuer des tâches telles que la détection de points clés. En même temps, des instructions comme “appliquer un masque bleu au chien le plus à droite” servent à la segmentation.

A la base de ce cadre se trouvent les modèles probabilistes de diffusion de débruitage (DDPM), qui génèrent des sorties de pixels. Les données d’entraînement comprennent des triplets, chacun composé d’une instruction, d’une image source et d’une image de sortie cible. Le modèle est conçu pour aborder trois types principaux de sortie : images RVB, masques binaires et points clés. Cela couvre un large éventail de tâches de vision, notamment la segmentation, la détection de points clés, l’édition et l’amélioration d’images.

Détection de points clés

a) Créer un cercle jaune autour de l’œil droit de la baleine. (b) Marquer le logo de la voiture avec un cercle bleu.

Segmentation

a) Marquer en bleu les pixels du chat dans le miroir et laisser le reste inchangé. (b) Peindre en bleu les pixels de l’ombre et conserver l’apparence actuelle des autres pixels.

Édition d’images

Résultats d’images générés par le modèle

Tâches de bas niveau

InstructDiffusion s’applique également aux tâches de vision de bas niveau, telles que le défloutage d’images, la réduction du bruit et la suppression de filigrane.

Les expériences démontrent l’efficacité d’InstructDiffusion, surclassant les modèles spécialisés dans les tâches individuelles. Cependant, la véritable merveille réside dans sa capacité de généralisation. Il présente la caractéristique emblématique souvent associée à l’intelligence artificielle générale (AGI), s’adaptant avec compétence aux tâches non rencontrées lors de l’entraînement. Cela marque une avancée significative vers un cadre unifié et flexible pour la vision par ordinateur, prêt à faire progresser l’ensemble du domaine.

Une révélation clé a été que la formation simultanée du modèle sur des tâches diverses a notablement amplifié sa capacité à se généraliser à des scénarios nouveaux. InstructDiffusion a fait preuve d’une remarquable efficacité sur les ensembles de données HumanArt et AP-10K pour la détection de points clés, malgré des distributions de données distinctes par rapport aux données d’entraînement.

L’équipe de recherche a souligné l’importance critique d’instructions très détaillées pour améliorer les capacités de généralisation du modèle. De simples noms de tâches tels que “segmentation sémantique” se sont révélés insuffisants, donnant des performances médiocres, en particulier sur des types de données nouveaux. Cela souligne la capacité d’InstructDiffusion à saisir les significations et les intentions spécifiques derrière des instructions détaillées plutôt que de se fier à la mémorisation.

En mettant l’accent sur la compréhension plutôt que sur la mémorisation, InstructDiffusion apprend des concepts visuels robustes et des significations sémantiques. Cette distinction est cruciale pour comprendre ses remarquables capacités de généralisation. Par exemple, une instruction telle que “encercler l’oreille gauche du chat en rouge” permet au modèle de distinguer des éléments spécifiques, tels que “chat”, “oreille gauche” et “cercle rouge”, démontrant ainsi sa compréhension fine.

Ce développement révolutionnaire propulse les modèles de vision par ordinateur vers la polyvalence généraliste, reflétant la perception humaine. L’interface d’InstructDiffusion introduit une flexibilité et une interactivité absentes dans la plupart des systèmes de vision actuels, comblant ainsi le fossé entre la compréhension humaine et celle de la machine en vision par ordinateur. Les implications de cette recherche sont profondes, car elle ouvre la voie au développement d’agents de vision polyvalents, capables de multiples utilisations, démontrant ainsi son potentiel pour propulser l’intelligence visuelle générale vers de nouveaux sommets.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les 6 principaux cas d'utilisation de GPT-4

Explorez les applications révolutionnaires de GPT-4 dans divers secteurs, de la création de contenu aux soins de sant...

AI

Comment l'IA révolutionne-t-elle le monde de l'Internet des objets?

Les solutions avancées d'IdO avec l'IA sont en train de remodeler notre monde, en pénétrant tous les domaines de notr...

Actualités sur l'IA

L'UE prend position avec des règles sur l'IA

Dans une démarche révolutionnaire, l’Union Européenne (UE) a réussi à adopter The Artificial Intelligence Act, ...

Apprentissage automatique

Les trois méthodes essentielles pour évaluer un nouveau modèle de langage

De nouveaux LLM sont publiés chaque semaine, et si vous êtes comme moi, vous pourriez vous demander Est-ce que celui...

AI

Simplification des Transformers NLP de pointe en utilisant des mots que vous comprenez - partie 3 - Attention

Les Transformers ont eu un impact sérieux dans le domaine de l'IA, peut-être dans le monde entier. Cette architecture...

AI

L'avenir de la programmation Java 5 tendances à surveiller en 2023

Dans cet article, vous apprendrez sur l'avenir de la programmation Java. Découvrez ces 5 tendances Java les plus popu...