Google AI propose PixelLLM un modèle Vision-Language capable de localisation précise et d’alignement Vision-Language

Google AI présente PixelLLM, un modèle Vision-Language offrant une localisation précise et un alignement Vision-Language

Les modèles de langage large (LLM) ont réussi à utiliser avec succès la puissance des sous-domaines de l’intelligence artificielle (IA), notamment le traitement du langage naturel (NLP), la génération de langage naturel (NLG) et la vision par ordinateur. Avec les LLM, la création de modèles de vision-langage capables de raisonner de manière complexe sur les images, de répondre aux requêtes concernant les images et de les décrire dans un langage naturel est devenue possible. Cependant, il reste incertain si les LLM peuvent effectuer des tâches de localisation telles que la référence de mots ou la localisation.

Pour surmonter ce défi, une équipe de chercheurs de Google Research et de l’UC San Diego a introduit un modèle intelligent appelé PixelLLM qui peut accomplir une localisation fine-grained et un alignement vision-langage. Cette approche s’inspire de la façon dont les gens se comportent naturellement, en particulier les bébés qui décrivent leur environnement visuel avec des gestes, des pointages et des noms. L’équipe a partagé que le but est de découvrir comment les LLM peuvent tirer une compréhension spatiale et un raisonnement à partir d’une entrée visuelle.

PixelLLM aligne de manière dense chaque mot de sortie du modèle de langage sur un emplacement de pixel. Pour ce faire, un petit perceptron multicouche (MLP) a été ajouté par-dessus les caractéristiques des mots, ce qui lui permet de régresser à chaque emplacement de pixel du mot. On a utilisé un réglage à faible rang (LoRA), qui permet de mettre à jour ou de geler les poids du modèle de langage. Le modèle peut également recevoir des instructions textuelles ou de localisation, ce qui lui permet de fournir des sorties adaptées à l’instruction.

L’architecture du modèle comprend un encodeur d’image, un encodeur d’instruction et un extracteur de caractéristiques de l’instruction. Un modèle de langage large reçoit les caractéristiques de l’image conditionnée par l’instruction et une instruction textuelle facultative, avec une sortie sous forme de localisation par mot et de légendes. Avec la capacité de prendre diverses combinaisons de langage ou de localisation en entrée ou en sortie, l’architecture est polyvalente et adaptative à un large éventail d’activités vision-langage.

L’équipe a évalué le modèle en utilisant des tâches de vision bien connues telles que la légende d’objets denses, la légende conditionnée par la localisation et la localisation de référence. Avec des performances remarquables, notamment 89,8 P@0,5 pour la référence de localisation RefCOCO, 19,9 CIDEr pour la légende conditionnée par Visual Genome et 17,0 mAP pour la légende d’objets denses, PixelLLM a démontré des résultats de pointe dans divers défis. La formulation de localisation dense par pixel est importante, comme le montrent des études d’ablation sur RefCOCO, qui donnent un gain de 3,7 points par rapport à d’autres formulations de localisation. Ainsi, PixelLLM s’est avéré être capable d’obtenir un alignement visio-langagier précis et une localisation.

L’équipe a résumé ses principales contributions comme suit.

  1. Un nouveau modèle de vision-langage appelé PixelLLM, qui produit une localisation de mots et peut générer des légendes d’image, a été introduit.
  1. Le modèle prend en charge des instructions textuelles ou facultatives en plus de l’entrée d’image.
  1. Le modèle a utilisé un ensemble de données narratif localisé pour l’entraînement de localisation par mot,
  1. Le modèle est capable de s’adapter à différentes tâches vision-langage, notamment la segmentation, la légende conditionnée par la localisation, la localisation de référence et la légende d’objets denses.
  1. Le modèle a montré des résultats supérieurs dans la légende conditionnée par la localisation, la légende d’objets denses et la localisation de référence et la segmentation.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

L'IA de NVIDIA pour sauver la planète du changement climatique

Lors d’un discours d’ouverture au Sommet de Berlin pour l’initiative des moteurs de virtualisation ...

AI

Qui est Harry Potter ? À l'intérieur de la méthode de perfectionnement de la recherche Microsoft pour désapprendre les concepts dans les LLM.

Les modèles linguistiques de grande envergure (LLMs) sont régulièrement entraînés sur de vastes quantités de données ...

AI

Des chercheurs de Stanford présentent Protpardelle un modèle de diffusion à tous les atomes révolutionnaire pour la co-conception de la structure et de la séquence des protéines.

Dans une avancée remarquable pour la conception des protéines, une équipe de chercheurs a dévoilé Protpardelle, un mo...

AI

Les leaders mondiaux mettent en garde contre les dangers 'catastrophiques' de l'IA

Lors d'un sommet au Royaume-Uni, 28 gouvernements, dont la Chine et les États-Unis, ont signé une déclaration s'engag...