Pré-entraînement de langage visuel amélioré par la récupération

'Enhanced visual language pre-training with retrieval'

Publié par Ziniu Hu, chercheur étudiant, et Alireza Fathi, scientifique de recherche, Google Research, Perception Team

Les modèles à grande échelle, tels que T5, GPT-3, PaLM, Flamingo et PaLI, ont démontré la capacité de stocker des quantités substantielles de connaissances lorsqu’ils sont mis à l’échelle vers des dizaines de milliards de paramètres et entraînés sur de grands ensembles de données textuelles et d’images. Ces modèles atteignent des résultats de pointe sur des tâches en aval, telles que la légende d’images, la réponse à des questions visuelles et la reconnaissance de vocabulaire ouvert. Malgré de telles réalisations, ces modèles nécessitent un volume massif de données pour la formation et finissent par avoir un nombre considérable de paramètres (des milliards dans de nombreux cas), ce qui entraîne des exigences de calcul importantes. De plus, les données utilisées pour former ces modèles peuvent devenir obsolètes, nécessitant une nouvelle formation à chaque mise à jour des connaissances du monde. Par exemple, un modèle formé il y a seulement deux ans peut fournir des informations obsolètes sur le président actuel des États-Unis.

Dans les domaines du traitement du langage naturel ( RETRO, REALM) et de la vision par ordinateur (KAT), les chercheurs ont tenté de relever ces défis en utilisant des modèles augmentés de récupération. Typiquement, ces modèles utilisent une colonne vertébrale qui est capable de traiter une seule modalité à la fois, par exemple, uniquement du texte ou uniquement des images, pour coder et récupérer des informations à partir d’un corpus de connaissances. Cependant, ces modèles augmentés de récupération ne sont pas en mesure d’utiliser toutes les modalités disponibles dans une requête et les corpus de connaissances, et peuvent ne pas trouver les informations les plus utiles pour générer la sortie du modèle.

Pour aborder ces problèmes, dans « REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory », à paraître à CVPR 2023, nous présentons un modèle visuel-langage qui apprend à utiliser une « mémoire » multi-source multi-modale pour répondre à des requêtes intensives en connaissances. REVEAL utilise l’apprentissage de représentations neuronales pour coder et convertir des sources de connaissances diverses en une structure de mémoire composée de paires clé-valeur. Les clés servent d’indices pour les éléments de mémoire, tandis que les valeurs correspondantes stockent des informations pertinentes sur ces éléments. Au cours de la formation, REVEAL apprend les plongements clés, les jetons de valeur et la capacité de récupérer des informations de cette mémoire pour répondre à des requêtes intensives en connaissances. Cette approche permet aux paramètres du modèle de se concentrer sur le raisonnement de la requête, plutôt que d’être dédiés à la mémorisation.

Nous augmentons un modèle visuel-langage avec la capacité de récupérer plusieurs entrées de connaissances à partir d’un ensemble diversifié de sources de connaissances, ce qui aide à la génération.

Construction de mémoire à partir de corpus de connaissances multimodaux

Notre approche est similaire à REALM en ce sens que nous précalculons les plongements de clé et de valeur des éléments de connaissance provenant de différentes sources et les indexons dans une mémoire de connaissances unifiée, où chaque élément de connaissance est encodé en une paire clé-valeur. Chaque clé est un vecteur d’encastrement de dimension d, tandis que chaque valeur est une séquence d’encastrements de jetons représentant l’élément de connaissance de manière plus détaillée. Contrairement aux travaux précédents, REVEAL exploite un ensemble diversifié de corpus de connaissances multimodaux, comprenant le graphe de connaissances WikiData, les passages et les images de Wikipédia, les paires texte-image du web et les données de réponse à des questions visuelles. Chaque élément de connaissance peut être du texte, une image, une combinaison des deux (par exemple, des pages dans Wikipedia) ou une relation ou un attribut d’un graphe de connaissances (par exemple, Barack Obama mesure 6’2″). Au cours de la formation, nous recalculons en continu les plongements clés et de valeur de la mémoire à mesure que les paramètres du modèle sont mis à jour. Nous mettons à jour la mémoire de manière asynchrone à chaque millier d’étapes de formation.

Mise à l’échelle de la mémoire à l’aide de la compression

Une solution naïve pour encoder une valeur de mémoire consiste à conserver toute la séquence de jetons pour chaque élément de connaissance. Ensuite, le modèle pourrait fusionner la requête d’entrée et les k premières valeurs de mémoire récupérées en concaténant tous leurs jetons ensemble et en les alimentant dans un pipeline encodeur-décodageur de transformateur. Cette approche présente deux problèmes: (1) stocker des centaines de millions d’éléments de connaissance en mémoire est impraticable si chaque valeur de mémoire est constituée de centaines de jetons et (2) l’encodeur de transformateur a une complexité quadratique par rapport au nombre total de jetons multiplié par k pour l’auto-attention. Par conséquent, nous proposons d’utiliser l’architecture Perceiver pour coder et compresser des éléments de connaissance. Le modèle Perceiver utilise un décodeur de transformateur pour compresser la séquence complète de jetons en une longueur arbitraire. Cela nous permet de récupérer les k premières entrées de mémoire pour k aussi grand que cent.

La figure suivante illustre la procédure de construction des paires clé-valeur de la mémoire. Chaque élément de connaissance est traité par un encodeur multi-modal image-langage, aboutissant à une séquence de jetons d’image et de texte. La tête de clé transforme ensuite ces jetons en un vecteur d’incorporation compact. La tête de valeur (perceptron) condense ces jetons en un nombre réduit d’entre eux, conservant les informations pertinentes sur l’élément de connaissance à l’intérieur.

Nous encodons les entrées de connaissances provenant de différents corpus en paires d’incorporation de clé et de valeur unifiées, où les clés sont utilisées pour indexer la mémoire et les valeurs contiennent des informations sur les entrées.

Pré-entraînement à grande échelle sur des paires image-texte

Pour entraîner le modèle REVEAL, nous commençons avec un corpus à grande échelle, collecté à partir du Web public avec trois milliards de paires de légendes de texte alternatif d’image, introduit dans LiT. Étant donné que l’ensemble de données est bruyant, nous ajoutons un filtre pour supprimer les points de données avec des légendes de moins de 50 caractères, ce qui produit environ 1,3 milliard de paires de légendes d’images. Nous prenons ensuite ces paires, combinées à l’objectif de génération de texte utilisé dans SimVLM, pour entraîner REVEAL. Étant donné un exemple image-texte, nous échantillonnons de manière aléatoire un préfixe contenant les premiers jetons du texte. Nous alimentons le préfixe de texte et l’image dans le modèle en entrée avec l’objectif de générer le reste du texte en sortie. L’objectif de l’entraînement est de conditionner le préfixe et de générer de manière autoregressive la séquence de texte restante.

Pour entraîner tous les composants du modèle REVEAL de bout en bout, nous devons démarrer le modèle dans un état de départ approprié (définir des valeurs initiales pour les paramètres du modèle). Sinon, si nous devions commencer avec des poids aléatoires (démarrage à froid), le récupérateur renverrait souvent des éléments de mémoire non pertinents qui ne généreraient jamais de signaux d’entraînement utiles. Pour éviter ce problème de démarrage à froid, nous construisons un ensemble de données de récupération initiale avec des connaissances pseudo-réelles pour donner au pré-entraînement un bon départ.

Nous créons une version modifiée de l’ensemble de données WIT à cette fin. Chaque paire image-légende dans WIT est également livrée avec un passage Wikipedia correspondant (mots entourant le texte). Nous rassemblons le passage environnant avec l’image de requête et l’utilisons comme connaissance pseudo-réelle qui correspond à la requête d’entrée. Le passage fournit des informations riches sur l’image et la légende, ce qui est utile pour initialiser le modèle.

Pour éviter que le modèle ne se base sur des caractéristiques d’image de bas niveau pour la récupération, nous appliquons une augmentation de données aléatoire à l’image de requête en entrée. Étant donné cet ensemble de données modifié contenant une pseudo-récupération de vérité, nous entraînons les incorporations de clé de requête et de mémoire pour démarrer le modèle.

Flux de travail REVEAL

Le flux de travail global de REVEAL se compose de quatre étapes principales. Tout d’abord, REVEAL encode une entrée multimodale en une séquence d’incorporations de jetons ainsi qu’une incorporation de requête condensée. Ensuite, le modèle traduit chaque entrée de connaissance multi-source en paires unifiées d’incorporations de clé et de valeur, la clé étant utilisée pour l’indexation de la mémoire et la valeur englobant l’ensemble des informations sur l’entrée. Ensuite, REVEAL récupère les k éléments de connaissance les plus pertinents à partir de plusieurs sources de connaissance, renvoie les incorporations de valeurs prétraitées stockées en mémoire et ré-encode les valeurs. Enfin, REVEAL fusionne les k éléments de connaissance par une couche de fusion de connaissance attentive en injectant le score de récupération (produit scalaire entre les incorporations de requête et de clé) comme une priorité lors du calcul de l’attention. Cette structure est essentielle pour permettre à la mémoire, à l’encodeur, au récupérateur et au générateur d’être entraînés simultanément de manière bout en bout.

Flux de travail global de REVEAL.

Résultats

Nous évaluons REVEAL sur des tâches de réponse à des questions visuelles basées sur la connaissance en utilisant les ensembles de données OK-VQA et A-OKVQA. Nous affinons notre modèle pré-entraîné sur les tâches VQA en utilisant le même objectif génératif où le modèle prend une paire image-question en entrée et génère la réponse textuelle en sortie. Nous démontrons que REVEAL obtient de meilleurs résultats sur l’ensemble de données A-OKVQA que les tentatives antérieures qui intègrent une connaissance fixe ou les travaux qui utilisent de grands modèles de langage (par exemple, GPT-3) comme source de connaissance implicite.

Résultats de réponse à des questions visuelles sur A-OKVQA. REVEAL obtient une précision supérieure par rapport aux travaux précédents, y compris ViLBERT, LXMERT, ClipCap, KRISP et GPV-2.

Nous évaluons également REVEAL sur les référentiels de légendes d’image en utilisant les ensembles de données MSCOCO et NoCaps. Nous affinons directement REVEAL sur l’ensemble de formation MSCOCO via l’objectif génératif d’entropie croisée. Nous mesurons nos performances sur l’ensemble de test MSCOCO et l’ensemble d’évaluation NoCaps en utilisant la métrique CIDEr, qui est basée sur l’idée que de bonnes légendes devraient être similaires aux légendes de référence en termes de choix de mots, de grammaire, de sens et de contenu. Nos résultats sur les ensembles de données MSCOCO et NoCaps sont présentés ci-dessous.

Résultats de légendes d’image sur MSCOCO et NoCaps utilisant la métrique CIDEr. REVEAL obtient un score supérieur par rapport à Flamingo, VinVL, SimVLM et CoCa.

Ci-dessous, nous présentons quelques exemples qualitatifs de la façon dont REVEAL récupère des documents pertinents pour répondre aux questions visuelles.

REVEAL peut utiliser des connaissances provenant de différentes sources pour répondre correctement à la question.

Conclusion

Nous présentons un modèle de langue visuelle augmentée par récupération de bout en bout (REVEAL), qui contient un récupérateur de connaissances qui apprend à utiliser un ensemble diversifié de sources de connaissances avec différentes modalités. Nous entraînons REVEAL sur un corpus image-texte massif avec quatre corpus de connaissances différents, et atteignons des résultats de pointe sur les tâches de réponse à des questions visuelles et de légendes d’image intensives en connaissances. Dans l’avenir, nous aimerions explorer la capacité de ce modèle pour l’attribution et l’appliquer à une classe plus large de tâches multimodales.

Remerciements

Cette recherche a été menée par Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross et Alireza Fathi.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Apprentissage automatique

Apprentissage automatique

Découvrez la puissance de l'apprentissage automatique pour extraire des informations et effectuer des prédictions à partir des données.

    Discover more

    AI

    Les chercheurs de Stanford innovent dans le modèle de langage large Factuality Classements de préférence automatiques et avancées en TALN pour la réduction des erreurs

    Des chercheurs de l’Université de Stanford et de l’UNC Chapel Hill abordent le problème des affirmations ...

    AI

    Dévoilez les secrets de la segmentation anatomique avec HybridGNet un encodeur-décodeur d'IA pour le décodage plausible des structures anatomiques

    Les récentes avancées dans les réseaux neuronaux profonds ont permis de nouvelles approches pour aborder la segmentat...

    AI

    Les cellules complexes des poulpes sont la clé de leur intelligence élevée.

    Les chercheurs ont exploré la structure neuronale de la pieuvre qui définit ses processus d'apprentissage en utilisan...

    AI

    La personnalisation d'images IA révolutionnaire de Nvidia la méthode de perfusion

    Dans le monde en constante évolution de la création artistique par l’IA, Nvidia a dévoilé une méthode révolutio...

    AI

    Agrandir l'invisible cette méthode d'intelligence artificielle utilise des NeRF pour visualiser les mouvements subtils en 3D

    Nous vivons dans un monde plein de mouvement, des mouvements subtils de nos corps aux mouvements à grande échelle de ...

    AI

    Des chercheurs de Microsoft et de Columbia proposent LLM-AUGMENTER un système d'IA qui augmente un LLM boîte noire avec un ensemble de modules plug-and-play.

    Les modèles de langage de grande taille (LLM) tels que GPT-3 sont largement reconnus pour leur capacité à générer des...