Les chercheurs en intelligence artificielle de Google présentent Pic2Word une nouvelle approche de la recherche d’images composées sans prédiction (ZS-CIR).
Les chercheurs de Google présentent Pic2Word, une nouvelle approche de recherche d'images sans prédiction.
La récupération d’image est un processus complexe si nous essayons de le représenter avec précision. De nombreux chercheurs travaillent sur ce processus pour garantir une perte minimale à partir de l’image réelle donnée. Les chercheurs ont trouvé un moyen de représenter une image à travers des incorporations de texte. Cependant, formater une image à travers du texte est difficile car il y a une perte importante et moins de précision. Cette représentation d’image relève d’une large catégorie de la vision par ordinateur et des réseaux neuronaux convolutifs. Les chercheurs ont développé un système de recherche d’image composée (CIR) pour minimiser les pertes, mais le problème avec cette méthode est qu’elle nécessite un grand ensemble de données pour former le modèle.
Pour résoudre ce problème, les chercheurs en IA de Google ont introduit une méthode appelée Pic2Word. Il s’agit de la même chose que de mapper une fonction de x à y. Ainsi, les images sont associées à des mots pour garantir une perte minimale en zéro-shot. L’avantage de cette méthode est qu’elle ne nécessite aucune donnée étiquetée. Elle peut également être utilisée sur des images non étiquetées et des images légendées, qui sont plus faciles à collecter que l’ensemble de données étiquetées. Les chercheurs la trouvent très similaire aux réseaux neuronaux convolutifs. L’ensemble d’entraînement comprend une “requête et une description”. Cette information est transmise au modèle de recherche, qui agit comme la couche cachée par rapport aux réseaux neuronaux. Nous transmettons cela à travers les couches cachées, qui donnent une image de référence et notre image en sortie. Dans ce cas, il y a une perte minimale entre l’image d’entrée et l’image de sortie.
Le modèle pré-entraîné d’image contrastive proposé par les chercheurs est un modèle d’apprentissage automatique qui génère des incorporations pour le texte et les images. L’image est transmise à l’encodeur visuel, qui donne des espaces d’incorporation visuelle. Cela est ensuite traité par l’encodeur de texte, qui génère des incorporations de texte. Ces incorporations visuelles et textuelles sont ensuite traitées pour minimiser la perte via ce modèle. Cette perte est appelée perte contrastive. Les incorporations de texte sont utilisées pour rechercher une image, ce qui nous donne une image récupérée. La sortie de l’image est une image différente mais avec le même contenu qu’auparavant. Ainsi, la perte qui s’est produite est minimale grâce à cette méthode. Le modèle de composition d’attributs de mode est un modèle d’apprentissage automatique dans lequel la même image est obtenue en tant qu’image d’entrée. La couleur obtenue dans ce modèle est également la même que l’entrée.
- Découvrez PoisonGPT une méthode d’IA pour introduire un modèle malveillant dans une chaîne d’approvisionnement de LLM autrement de confiance
- Rapport de l’OCDE 27% des emplois à haut risque en raison de l’IA
- L’IA aide les patients atteints de SLA à préserver leur voix
Ces méthodes sont très utiles pour associer une image à des jetons de mots. Les chercheurs proposent d’utiliser un modèle CLIP entraîné qui traite une image comme un jeton de texte afin que l’encodeur de langage puisse composer de manière flexible les caractéristiques de l’image et la description du texte. Les chercheurs effectuent une analyse complète démontrant Pic2Word dans diverses tâches diverses.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Top 14 Projets d’exploration de données avec code source
- Google Research présente SPAE un autoencodeur pour la génération multimodale avec des modèles de langage large (LLM) figés.
- Transformations de caractéristiques Un tutoriel sur l’ACP et l’ADL
- Comment l’IA perturbe-t-elle la gouvernance des données?
- Risques de l’IA et extinction L’avenir précaire de l’humanité au milieu d’une révolution de l’IA
- Un groupe de recherche de CMU, AI2 et de l’Université de Washington présente NLPositionality un cadre d’IA pour caractériser les biais de conception et quantifier la positionnalité des ensembles de données et des modèles de NLP.
- L’IA aide les robots domestiques à réduire de moitié le temps de planification