Cette recherche en IA dévoile ‘Kandinsky1’ une nouvelle approche dans la génération de texte vers image par diffusion latente, avec des scores FID exceptionnels sur COCO-30K.
La découverte de 'Kandinsky1' Une nouvelle avancée dans la génération d'images à partir de textes grâce à l'IA, avec d'excellents scores FID sur COCO-30K.
Au cours des dernières années, la vision par ordinateur et la modélisation générative ont connu des progrès remarquables, conduisant à des avancées dans la génération de texte en image. Diverses architectures génératives, y compris les modèles basés sur la diffusion, ont joué un rôle clé dans l’amélioration de la qualité et de la diversité des images générées. Cet article explore les principes, les caractéristiques et les capacités de Kandinsky1, un modèle puissant avec 3,3 milliards de paramètres, et met en évidence sa performance de premier ordre en termes de qualité mesurable de génération d’images.
Les modèles génératifs de texte en image ont évolué des approches autoregressives avec des défauts au niveau du contenu vers des modèles basés sur la diffusion tels que DALL-E 2 et Imagen. Ces modèles de diffusion, classés en fonction du niveau des pixels et du niveau latent, excellent dans la génération d’images, surpassant les GAN en termes de fidélité et de diversité. Ils intègrent des conditions de texte sans entraînement adversarial, comme le démontrent des modèles tels que GLIDE et eDiff-I, qui génèrent des images de faible résolution et les améliorent à l’aide de modèles de diffusion à super-résolution. Ces avancées ont transformé la génération de texte en image.
Des chercheurs de l’AIRI, de Skoltech et de Sber AI présentent Kandinsky, un nouveau modèle génératif de texte en image (Kandinsky) qui combine les techniques de diffusion latente avec des modèles d’images préalables. Kandinsky comporte une implémentation modifiée de MoVQ en tant que composant autoencodeur d’images et entraîne séparément le modèle d’image préalable pour mapper les textes intégrés avec les textes intégrés de l’image CLIP. Leur méthode propose un système de démonstration convivial prenant en charge divers modes de génération et met à disposition le code source et les points de contrôle du modèle.
- GPT-4V(ision) d’OpenAI une percée dans la frontière multimodale de l’IA
- LangChain 101 Partie 2d. Ajuster finement les modèles de langage avec les commentaires humains
- Un guide complet sur ZenML pour les débutants simplifiant MLOps.
Leur approche introduit une architecture de diffusion latente pour la synthèse de texte en image, exploitant des modèles d’image préalables et des techniques de diffusion latente. Elle utilise une approche basée sur les images préalables qui intègre la diffusion et les mappages linéaires entre les textes et les textes intégrés de l’image à l’aide des textes intégrés CLIP et XLMR. Leur modèle comprend trois étapes clés : l’encodage du texte, la création de correspondances intégrées (image préalable) et la diffusion latente. La normalisation élément par élément des textes intégrés visuels basée sur les statistiques de l’ensemble des données est mise en œuvre pour accélérer la convergence du processus de diffusion.
L’architecture de Kandinsky performe avec force dans la génération de texte en image, atteignant un impressionnant score FID de 8,03 sur l’ensemble de données de validation COCO-30K à une résolution de 256 x 256. La configuration du Prior linéaire a donné le meilleur score FID, ce qui indique une relation linéaire potentielle entre les textes intégrés visuels et textuels. L’efficacité de leur modèle est démontrée par l’entraînement d’un “cat prior” sur un sous-ensemble d’images de chats, qui excelle dans la génération d’images. Dans l’ensemble, Kandinsky rivalise étroitement avec les modèles de pointe dans la synthèse de texte en image.
Kandinsky, un système basé sur la diffusion latente, émerge comme un artiste de premier plan dans la génération et le traitement d’images. Leurs recherches explorent en profondeur les choix de conception des images préalables, le prior linéaire montrant des promesses et suggérant une connexion linéaire entre les textes intégrés visuels et textuels. Des interfaces conviviales comme une application web et un bot Telegram facilitent l’accessibilité. Les avenues de recherche futures comprennent l’utilisation d’encodeurs d’images avancés, l’amélioration des architectures UNet, l’amélioration des instructions de texte, la génération d’images de résolution supérieure et l’exploration de fonctionnalités telles que l’édition locale et le contrôle basé sur la physique. Les chercheurs soulignent la nécessité de traiter les problèmes de contenu, suggérant une modération en temps réel ou des classificateurs robustes pour atténuer les sorties indésirables.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Équité dans l’apprentissage automatique (Partie 1)
- Se concentrez sur les éviers et où les cacher un parcours visuel pour la mise en œuvre du streaming LLM
- Principaux articles importants en vision par ordinateur de la semaine du 2/10 au 8/10
- VoAGI News, 11 octobre 3 projets de science des données pour décrocher ce travail • 7 étapes pour maîtriser le NLP
- Améliorez les performances des modèles Falcon avec Amazon SageMaker
- Indexez le contenu de votre site Web exploré en utilisant le nouveau Web Crawler pour Amazon Kendra.
- IA et Efficacité énergétique une Révolution Durable