Cette recherche en intelligence artificielle propose Kosmos-G un modèle d’intelligence artificielle qui réalise une génération d’images de haute fidélité sans apprentissage à partir d’une entrée de vision-langage généralisée en exploitant la propriété

Cette recherche en intelligence artificielle présente Kosmos-G, un modèle d'intelligence artificielle qui génère des images haute fidélité sans apprentissage à partir d'une entrée de vision-langage généralisée en exploitant cette propriété unique

Récemment, il y a eu des avancées significatives dans la création d’images à partir de descriptions de texte et dans la combinaison de texte et d’images pour générer de nouvelles images. Cependant, un domaine inexploité est la génération d’images à partir d’entrées générales vision-langage (par exemple, générer une image à partir d’une description de scène impliquant plusieurs objets et personnes). Une équipe de chercheurs de Microsoft Research, de l’Université de New York et de l’Université de Waterloo a introduit KOSMOS-G, un modèle qui utilise les Multimodal LLM pour aborder cette problématique.

KOSMOS-G peut créer des images détaillées à partir de combinaisons complexes de texte et de plusieurs images, même lorsqu’il n’a pas vu ces exemples. C’est le premier modèle capable de générer des images dans des situations où divers objets ou choses sont présents sur les images, en fonction d’une description. KOSMOS-G peut être utilisé à la place de CLIP, ce qui ouvre de nouvelles possibilités d’utilisation d’autres techniques telles que ControlNet et LoRA pour diverses applications.

KOSMOS-G utilise une approche astucieuse pour générer des images à partir de texte et d’images. Il commence d’abord par former un Multimodal LLM (capable de comprendre à la fois le texte et les images), qui est ensuite aligné avec l’encodeur de texte CLIP (bon pour comprendre le texte).

Quand nous donnons à KOSMOS-G une légende avec du texte et des images segmentées, il est entraîné à créer des images qui correspondent à la description et suivent les instructions. Il le fait en utilisant un décodeur d’image pré-entraîné et en exploitant ce qu’il a appris à partir des images pour générer des images précises dans différentes situations.

KOSMOS-G peut générer des images en fonction des instructions et des données d’entrée. Il a trois étapes de formation. Dans la première étape, le modèle est pré-entraîné sur des corpus multimodaux. Dans la deuxième étape, un aligneur est formé pour aligner l’espace de sortie de KOSMOS-G sur l’espace d’entrée d’U-Net grâce à la supervision de CLIP. Dans la troisième étape, KOSMOS-G est affiné à travers une tâche de génération basée sur des données sélectionnées. Pendant l’étape 1, seul le MLLM est formé. Pendant l’étape 2, l’aligneur est formé avec le MLLM figé. Pendant l’étape 3, à la fois l’aligneur et le MLLM sont formés conjointement. Le décodeur d’image reste figé tout au long des étapes.

KOSMOS-G est vraiment bon pour la génération d’images à tirs nuls dans différents contextes. Il peut créer des images qui ont du sens, qui sont esthétiques et qui peuvent être personnalisées différemment. Il peut faire des choses comme changer le contexte, ajouter un style particulier, faire des modifications et ajouter des détails supplémentaires aux images. KOSMOS-G est le premier modèle à réaliser une VL2I multi-entités dans un cadre à tirs nuls.

KOSMOS-G peut facilement remplacer CLIP dans les systèmes de génération d’images. Cela ouvre de nouvelles possibilités passionnantes pour des applications qui étaient auparavant impossibles. En s’appuyant sur les fondations de CLIP, on s’attend à ce que KOSMOS-G fasse progresser le passage de la génération d’images basée sur le texte à la génération d’images basée sur une combinaison de texte et d’informations visuelles, créant ainsi des opportunités pour de nombreuses applications innovantes.

En résumé, KOSMOS-G est un modèle capable de créer des images détaillées à partir de texte et de plusieurs images. Il utilise une stratégie unique appelée “align before instruct” dans sa formation. KOSMOS-G est doué pour créer des images d’objets individuels et est le premier à le faire avec plusieurs objets. Il peut également remplacer CLIP et être utilisé avec d’autres techniques comme ControlNet et LoRA pour de nouvelles applications. En bref, KOSMOS-G est une première étape vers la création d’images comme un langage dans la génération d’images.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

L'IA dans le Edge Computing Implémenter des algorithmes pour améliorer le temps réel

L'informatique en périphérie est une approche transformative qui place le calcul à proximité des sources de données t...

AI

Exécution de LLMs génératifs avec RunPod | Une plateforme sans serveur

Introduction Le serverless émerge en tant que stratégie révolutionnaire dans le cloud computing. Il permet aux dévelo...

AI

Adopter l'IA dans le journalisme - Le carrousel des actualités

Selon une enquête récente du projet JournalismAI, un pense-tank de la LSE, 75% des organisations mondiales de presse ...

AI

Chercheurs de l'Université de l'Illinois introduisent Magicoder une série de modèles de langage LLM entièrement open-source pour le code.

L’équipe de chercheurs de l’Université de l’Illinois à Urbana Champaign et de l’Université Ts...

AI

Des chercheurs de l'Université du Massachusetts Lowell proposent ReLoRA une nouvelle méthode d'IA qui utilise des mises à jour de bas rang pour un entraînement de haut rang.

Au cours de la dernière décennie, l’entraînement de réseaux plus grands et plus surparamétrés, ou la stratégie ...

Actualités sur l'IA

16 Cas d'utilisation de ChatGPT

Si vous vous demandez comment vous pouvez tirer parti de ChatGPT, voici 16 des meilleurs cas d'utilisation de ChatGPT.