Cette recherche en IA dévoile ‘Kandinsky1’ une nouvelle approche dans la génération de texte vers image par diffusion latente, avec des scores FID exceptionnels sur COCO-30K.

La découverte de 'Kandinsky1' Une nouvelle avancée dans la génération d'images à partir de textes grâce à l'IA, avec d'excellents scores FID sur COCO-30K.

Au cours des dernières années, la vision par ordinateur et la modélisation générative ont connu des progrès remarquables, conduisant à des avancées dans la génération de texte en image. Diverses architectures génératives, y compris les modèles basés sur la diffusion, ont joué un rôle clé dans l’amélioration de la qualité et de la diversité des images générées. Cet article explore les principes, les caractéristiques et les capacités de Kandinsky1, un modèle puissant avec 3,3 milliards de paramètres, et met en évidence sa performance de premier ordre en termes de qualité mesurable de génération d’images.

Les modèles génératifs de texte en image ont évolué des approches autoregressives avec des défauts au niveau du contenu vers des modèles basés sur la diffusion tels que DALL-E 2 et Imagen. Ces modèles de diffusion, classés en fonction du niveau des pixels et du niveau latent, excellent dans la génération d’images, surpassant les GAN en termes de fidélité et de diversité. Ils intègrent des conditions de texte sans entraînement adversarial, comme le démontrent des modèles tels que GLIDE et eDiff-I, qui génèrent des images de faible résolution et les améliorent à l’aide de modèles de diffusion à super-résolution. Ces avancées ont transformé la génération de texte en image.

Des chercheurs de l’AIRI, de Skoltech et de Sber AI présentent Kandinsky, un nouveau modèle génératif de texte en image (Kandinsky) qui combine les techniques de diffusion latente avec des modèles d’images préalables. Kandinsky comporte une implémentation modifiée de MoVQ en tant que composant autoencodeur d’images et entraîne séparément le modèle d’image préalable pour mapper les textes intégrés avec les textes intégrés de l’image CLIP. Leur méthode propose un système de démonstration convivial prenant en charge divers modes de génération et met à disposition le code source et les points de contrôle du modèle.

Leur approche introduit une architecture de diffusion latente pour la synthèse de texte en image, exploitant des modèles d’image préalables et des techniques de diffusion latente. Elle utilise une approche basée sur les images préalables qui intègre la diffusion et les mappages linéaires entre les textes et les textes intégrés de l’image à l’aide des textes intégrés CLIP et XLMR. Leur modèle comprend trois étapes clés : l’encodage du texte, la création de correspondances intégrées (image préalable) et la diffusion latente. La normalisation élément par élément des textes intégrés visuels basée sur les statistiques de l’ensemble des données est mise en œuvre pour accélérer la convergence du processus de diffusion.

L’architecture de Kandinsky performe avec force dans la génération de texte en image, atteignant un impressionnant score FID de 8,03 sur l’ensemble de données de validation COCO-30K à une résolution de 256 x 256. La configuration du Prior linéaire a donné le meilleur score FID, ce qui indique une relation linéaire potentielle entre les textes intégrés visuels et textuels. L’efficacité de leur modèle est démontrée par l’entraînement d’un “cat prior” sur un sous-ensemble d’images de chats, qui excelle dans la génération d’images. Dans l’ensemble, Kandinsky rivalise étroitement avec les modèles de pointe dans la synthèse de texte en image.

Kandinsky, un système basé sur la diffusion latente, émerge comme un artiste de premier plan dans la génération et le traitement d’images. Leurs recherches explorent en profondeur les choix de conception des images préalables, le prior linéaire montrant des promesses et suggérant une connexion linéaire entre les textes intégrés visuels et textuels. Des interfaces conviviales comme une application web et un bot Telegram facilitent l’accessibilité. Les avenues de recherche futures comprennent l’utilisation d’encodeurs d’images avancés, l’amélioration des architectures UNet, l’amélioration des instructions de texte, la génération d’images de résolution supérieure et l’exploration de fonctionnalités telles que l’édition locale et le contrôle basé sur la physique. Les chercheurs soulignent la nécessité de traiter les problèmes de contenu, suggérant une modération en temps réel ou des classificateurs robustes pour atténuer les sorties indésirables.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Acte de l'UE sur l'IA une étape prometteuse ou un pari risqué pour l'avenir de l'IA ?

Le règlement sur l'intelligence artificielle de l'UE est la première loi réglementant l'IA au niveau international. S...

Recherche en IA

Des chercheurs de Microsoft et de l'UC Santa Barbara proposent LONGMEM un cadre d'IA qui permet aux LLM de mémoriser de longues histoires.

Les modèles de langage volumineux (LLM) ont considérablement amélioré l’état de l’art dans diverses tâche...

AI

Types de ML Edge et cas d'utilisation pour les entreprises

L'apprentissage automatique Edge permet aux appareils d'exécuter des tâches d'IA localement, réduisant ainsi la laten...

AI

Optimiser l'IA pour amplifier les capacités humaines en matière de cybersécurité

Il y a des avantages à utiliser l'IA pour accélérer la sécurité. Cependant, une automatisation complète nécessite un ...

AI

Pika 1.0 Un nouveau modèle d'IA pour la création de vidéos

Dans un monde captivé par l’IA générative, Pika, une start-up spécialisée dans la création de vidéos alimentées...

AI

Créer des applications d'IA avec Java et Gradle

Explorez le développement de l'IA avec Java et Gradle en utilisant des bibliothèques populaires telles que Deeplearni...