Créer un chemin dans la génération de la vision et du langage entrelacés Dévoiler le pouvoir des Vokens génératifs avec MiniGPT-5

Créez un chemin dans la génération de la vision et du langage entrelacés Découvrez le pouvoir des Vokens génératifs avec MiniGPT-5

Les grands modèles de langage excellent dans la compréhension et la génération du langage humain. Cette capacité est cruciale pour des tâches telles que la synthèse de texte, l’analyse des sentiments, la traduction et les chatbots, ce qui en fait des outils précieux pour le traitement du langage naturel. Ces modèles peuvent améliorer les systèmes de traduction automatique, permettant des traductions plus précises et contextuelles entre différentes langues, avec de nombreuses applications dans la communication mondiale et le monde des affaires.

Les modèles de langage sont doués pour reconnaître et catégoriser les entités nommées dans le texte, telles que les noms de personnes, de lieux, d’organisations, de dates, et bien plus encore. Ils peuvent répondre à des questions basées sur les informations présentées dans un passage ou un document. Ils comprennent le contexte de la question et extraient les informations pertinentes pour fournir des réponses précises. Cependant, les modèles de langage actuels sont basés sur le traitement de paires de texte et d’images. Ils ont besoin d’aide lorsque la tâche est de générer de nouvelles images. Les tâches émergentes de vision et de langage dépendent fortement de données centrées sur le sujet et négligent souvent les descripteurs d’images.

Des chercheurs de l’Université de Californie ont créé un nouveau modèle appelé MiniGPT-5, qui utilise des techniques de génération de vision et de langage basées sur des vokens générateurs. Cet encodeur multimodal est une technique novatrice, éprouvée et plus efficace que les autres modèles de langage. Il combine les vokens générateurs avec des modèles de diffusion stables pour générer des sorties de vision et de langage.

Les vokens générateurs sont des jetons visuels spéciaux qui peuvent être directement entraînés sur des images brutes. Les jetons visibles font référence aux éléments ajoutés à l’entrée du modèle pour intégrer les informations visuelles ou permettre une compréhension multimodale. Lors de la génération de légendes d’images, un modèle peut prendre une image en entrée, la tokeniser en une série de jetons visuels spéciaux, et les combiner avec des jetons textuels représentant le contexte ou la description de l’image. Cette intégration permet au modèle de générer des légendes significatives et pertinentes sur le plan contextuel pour les images.

Les chercheurs suivent une méthode en deux étapes dans laquelle la première étape est l’alignement unimodal des caractéristiques visuelles de haute qualité alignées sur le texte à partir de grandes paires texte-image, et la deuxième étape implique de veiller à ce que les énoncés visuels et textuels soient bien coordonnés dans la génération. Leur méthode de plusieurs étapes permet d’éliminer les annotations spécifiques au domaine et rend la solution basée sur les travaux existants. Ils ont suivi la stratégie de double perte pour équilibrer le texte et les images. Leur méthode adaptée optimise également l’efficacité de la formation et résout facilement les contraintes de mémoire.

L’équipe a mis en œuvre un affinage de paramètres plus efficace sur l’encodeur MiniGPT-4 pour former le modèle à mieux comprendre les instructions et améliorer ses performances dans des tâches nouvelles ou non vues auparavant. Ils ont également essayé le réglage du préfixe et LoRA sur l’encodeur de langage Vicuna utilisé dans MiniGPT-4. Les travaux futurs sur ces méthodes élargiront les applications, ce qui semblait être un défi auparavant en raison de la nature disjointe des modèles d’image et de texte existants.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Des chercheurs de l'Université Ben-Gourion du Néguev ont conçu un système d'IA qui identifie les violations des normes sociales.

Le dictionnaire APA de psychologie fournit une définition complète des normes sociales en tant que normes socialement...

AI

Tendances des startups en intelligence artificielle Aperçus de la dernière sélection de Y Combinator

Y Combinator (YC), l'accélérateur de start-up renommé basé dans la Silicon Valley, a récemment annoncé sa cohorte hiv...

Science des données

Les chercheurs du MIT rendent les modèles de langage auto-apprenants évolutifs.

Les scientifiques ont utilisé un ensemble de données d'inférence logique basé sur le langage naturel pour créer des m...

AI

Révolutionner la technologie portable l'algorithme de fréquence cardiaque ultra-efficace d'Edge Impulse et l'extension de la suite de soins de santé

L’apprentissage automatique est utilisé dans presque tous les aspects de notre vie et dans divers domaines. C&#...

AI

Comprendre l'IA explicative et l'IA interprétable

En raison des avancées technologiques récentes en matière d’apprentissage automatique (ML), les modèles ML sont...