Découvrez InstaFlow Un nouveau modèle d’IA génératif en une seule étape dérivé de StableDiffusion (SD), un logiciel open-source.
Découvrez InstaFlow, un modèle d'IA génératif dérivé de StableDiffusion (SD), un logiciel open-source.
Les modèles de diffusion ont provoqué une révolution dans la génération de texte vers image, offrant une qualité et une créativité remarquables. Cependant, il convient de noter que leur procédure d’échantillonnage en plusieurs étapes est reconnue pour sa lenteur, exigeant souvent de nombreuses étapes d’inférence pour obtenir des résultats souhaitables. Dans cet article, les auteurs présentent un modèle générateur innovant en une seule étape dérivé du modèle Stable Diffusion (SD) open source.
Ils ont découvert qu’une tentative simple de distillation de SD a conduit à un échec complet en raison d’un problème majeur : le couplage suboptimal du bruit et des images, ce qui a grandement entravé le processus de distillation. Pour surmonter ce défi, les chercheurs se sont tournés vers Rectified Flow, une avancée récente dans les modèles générateurs qui intègre des flux probabilistes. Rectified Flow intègre une technique unique appelée “reflow”, qui redresse progressivement la trajectoire des flux de probabilité.
Cela réduit à son tour le coût de transport entre la distribution de bruit et la distribution d’image. Cette amélioration du couplage facilite grandement le processus de distillation, résolvant ainsi le problème initial. L’image ci-dessus montre le fonctionnement d’Instaflow.
- Les chercheurs de la CMU proposent l’adaptation en temps de test avec des modèles centrés sur les slots (Slot-TTA) un modèle semi-supervisé équipé d’un goulot d’étranglement centré sur les slots qui segmente et reconstruit conjointement les scènes.
- La collaboration multi-IA aide au raisonnement et à la précision factuelle dans les grands modèles linguistiques
- Des chercheurs du MIT ont reçu des subventions de démarrage pour étudier les implications sociales de l’IA générative
L’utilisation d’un générateur de texte vers image basé sur la diffusion en une seule étape est attestée par un score FID (Fréchet Inception Distance) de 23,3 sur l’ensemble de données MS COCO 2017-5k, ce qui représente une amélioration substantielle par rapport à la technique de pointe précédente connue sous le nom de distillation progressive (37,2 → 23,3 en FID). De plus, en utilisant un réseau étendu comportant 1,7 milliard de paramètres, les chercheurs ont réussi à améliorer encore davantage le FID, atteignant un score de 22,4. Ce modèle en une seule étape est appelé “InstaFlow”.
Sur l’ensemble de données MS COCO 2014-30k, InstaFlow démontre des performances exceptionnelles avec un FID de 13,1 en seulement 0,09 seconde, ce qui en fait le meilleur performer dans la catégorie ≤ 0,1 seconde. Cela dépasse le récent modèle StyleGAN-T (13,9 en 0,1 seconde). Notamment, l’entraînement d’InstaFlow est réalisé avec un coût computationnel relativement faible de seulement 199 jours GPU A100.
Sur la base de ces résultats, les chercheurs ont proposé les contributions suivantes :
- Amélioration de SD en une seule étape : L’entraînement du modèle 2-Rectified Flow n’a pas entièrement convergé, nécessitant 75,2 jours GPU A100. Cela ne représente qu’une fraction du coût d’entraînement de SD d’origine (6250 jours GPU A100). En augmentant la taille de l’ensemble de données, la taille du modèle et la durée de l’entraînement, les chercheurs estiment que les performances de SD en une seule étape s’amélioreront considérablement.
- ControlNet en une seule étape : En appliquant notre pipeline pour entraîner des modèles ControlNet, il est possible d’obtenir des ControlNets en une seule étape capables de générer du contenu contrôlable en quelques millisecondes.
- Personnalisation pour les modèles en une seule étape : En affinant SD avec l’objectif d’entraînement des modèles de diffusion et LORA, les utilisateurs peuvent personnaliser le SD pré-entraîné pour générer un contenu et des styles spécifiques.
- Structure de réseau neuronal pour la génération en une seule étape : Avec l’avancée de la création de modèles SD en une seule étape utilisant le reflow conditionné par texte et la distillation, plusieurs directions intrigantes se dessinent :
(1) explorer des structures alternatives en une seule étape, telles que les architectures réussies utilisées dans les GAN, qui pourraient potentiellement surpasser l’U-Net en termes de qualité et d’efficacité ;
(2) exploiter des techniques telles que l’élagage, la quantification et d’autres approches pour construire des réseaux neuronaux efficaces afin de rendre la génération en une seule étape plus abordable en termes de calcul tout en minimisant une éventuelle dégradation de la qualité.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Entraîner un Agent à Maîtriser le Morpion par Auto-apprentissage
- ChatGPT Advanced Data Analytics pour tracés personnalisés de courbes de diagraphies avec Matplotlib
- Construisez et jouez ! Votre propre modèle V&L équipé de LLM !
- Qubit Magie Création de créatures mythiques avec l’informatique quantique
- Commencer avec l’IA/ML pour construire des chaînes d’approvisionnement intelligentes
- Débloquer le pouvoir du flou facial dans les médias une exploration complète et une comparaison des modèles
- Au-delà des notes Utiliser l’IA pour prévoir et expliquer la performance des élèves