Les chercheurs en intelligence artificielle de Google présentent Pic2Word une nouvelle approche de la recherche d’images composées sans prédiction (ZS-CIR).

Les chercheurs de Google présentent Pic2Word, une nouvelle approche de recherche d'images sans prédiction.

La récupération d’image est un processus complexe si nous essayons de le représenter avec précision. De nombreux chercheurs travaillent sur ce processus pour garantir une perte minimale à partir de l’image réelle donnée. Les chercheurs ont trouvé un moyen de représenter une image à travers des incorporations de texte. Cependant, formater une image à travers du texte est difficile car il y a une perte importante et moins de précision. Cette représentation d’image relève d’une large catégorie de la vision par ordinateur et des réseaux neuronaux convolutifs. Les chercheurs ont développé un système de recherche d’image composée (CIR) pour minimiser les pertes, mais le problème avec cette méthode est qu’elle nécessite un grand ensemble de données pour former le modèle.

Pour résoudre ce problème, les chercheurs en IA de Google ont introduit une méthode appelée Pic2Word. Il s’agit de la même chose que de mapper une fonction de x à y. Ainsi, les images sont associées à des mots pour garantir une perte minimale en zéro-shot. L’avantage de cette méthode est qu’elle ne nécessite aucune donnée étiquetée. Elle peut également être utilisée sur des images non étiquetées et des images légendées, qui sont plus faciles à collecter que l’ensemble de données étiquetées. Les chercheurs la trouvent très similaire aux réseaux neuronaux convolutifs. L’ensemble d’entraînement comprend une “requête et une description”. Cette information est transmise au modèle de recherche, qui agit comme la couche cachée par rapport aux réseaux neuronaux. Nous transmettons cela à travers les couches cachées, qui donnent une image de référence et notre image en sortie. Dans ce cas, il y a une perte minimale entre l’image d’entrée et l’image de sortie.

Le modèle pré-entraîné d’image contrastive proposé par les chercheurs est un modèle d’apprentissage automatique qui génère des incorporations pour le texte et les images. L’image est transmise à l’encodeur visuel, qui donne des espaces d’incorporation visuelle. Cela est ensuite traité par l’encodeur de texte, qui génère des incorporations de texte. Ces incorporations visuelles et textuelles sont ensuite traitées pour minimiser la perte via ce modèle. Cette perte est appelée perte contrastive. Les incorporations de texte sont utilisées pour rechercher une image, ce qui nous donne une image récupérée. La sortie de l’image est une image différente mais avec le même contenu qu’auparavant. Ainsi, la perte qui s’est produite est minimale grâce à cette méthode. Le modèle de composition d’attributs de mode est un modèle d’apprentissage automatique dans lequel la même image est obtenue en tant qu’image d’entrée. La couleur obtenue dans ce modèle est également la même que l’entrée.

Ces méthodes sont très utiles pour associer une image à des jetons de mots. Les chercheurs proposent d’utiliser un modèle CLIP entraîné qui traite une image comme un jeton de texte afin que l’encodeur de langage puisse composer de manière flexible les caractéristiques de l’image et la description du texte. Les chercheurs effectuent une analyse complète démontrant Pic2Word dans diverses tâches diverses.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Informatique

Les taxis drones effectuent leur premier essai en Israël.

Israël a commencé des vols d'essai d'aéronefs autonomes pour le transport de fret lourd, et éventuellement pour le tr...

AI

Le mythe de l'IA 'Open Source

Une nouvelle analyse montre que les outils d'IA open source tels que Llama 2 sont encore contrôlés par de grandes ent...

AI

Découvrez TADA une puissante approche d'IA pour convertir les descriptions verbales en avatars 3D expressifs.

Le développement de grands modèles de langage et de modèles de diffusion a ouvert la voie à la fusion de modèles de t...

Recherche en IA

Les chercheurs utilisent l'IA pour identifier des matériaux similaires dans les images.

Cette méthode d'apprentissage automatique pourrait aider à la compréhension des scènes robotiques, à l'édition d'imag...

AI

Imprégner l'IA d'éthique

En l'absence de réglementations, les entreprises commencent à élaborer leurs propres directives pour contrôler l'util...