Découvrez InstaFlow Un nouveau modèle d’IA génératif en une seule étape dérivé de StableDiffusion (SD), un logiciel open-source.

Découvrez InstaFlow, un modèle d'IA génératif dérivé de StableDiffusion (SD), un logiciel open-source.

Les modèles de diffusion ont provoqué une révolution dans la génération de texte vers image, offrant une qualité et une créativité remarquables. Cependant, il convient de noter que leur procédure d’échantillonnage en plusieurs étapes est reconnue pour sa lenteur, exigeant souvent de nombreuses étapes d’inférence pour obtenir des résultats souhaitables. Dans cet article, les auteurs présentent un modèle générateur innovant en une seule étape dérivé du modèle Stable Diffusion (SD) open source.

Ils ont découvert qu’une tentative simple de distillation de SD a conduit à un échec complet en raison d’un problème majeur : le couplage suboptimal du bruit et des images, ce qui a grandement entravé le processus de distillation. Pour surmonter ce défi, les chercheurs se sont tournés vers Rectified Flow, une avancée récente dans les modèles générateurs qui intègre des flux probabilistes. Rectified Flow intègre une technique unique appelée “reflow”, qui redresse progressivement la trajectoire des flux de probabilité.

Cela réduit à son tour le coût de transport entre la distribution de bruit et la distribution d’image. Cette amélioration du couplage facilite grandement le processus de distillation, résolvant ainsi le problème initial. L’image ci-dessus montre le fonctionnement d’Instaflow.

L’utilisation d’un générateur de texte vers image basé sur la diffusion en une seule étape est attestée par un score FID (Fréchet Inception Distance) de 23,3 sur l’ensemble de données MS COCO 2017-5k, ce qui représente une amélioration substantielle par rapport à la technique de pointe précédente connue sous le nom de distillation progressive (37,2 → 23,3 en FID). De plus, en utilisant un réseau étendu comportant 1,7 milliard de paramètres, les chercheurs ont réussi à améliorer encore davantage le FID, atteignant un score de 22,4. Ce modèle en une seule étape est appelé “InstaFlow”.

Sur l’ensemble de données MS COCO 2014-30k, InstaFlow démontre des performances exceptionnelles avec un FID de 13,1 en seulement 0,09 seconde, ce qui en fait le meilleur performer dans la catégorie ≤ 0,1 seconde. Cela dépasse le récent modèle StyleGAN-T (13,9 en 0,1 seconde). Notamment, l’entraînement d’InstaFlow est réalisé avec un coût computationnel relativement faible de seulement 199 jours GPU A100.

Sur la base de ces résultats, les chercheurs ont proposé les contributions suivantes :

  • Amélioration de SD en une seule étape : L’entraînement du modèle 2-Rectified Flow n’a pas entièrement convergé, nécessitant 75,2 jours GPU A100. Cela ne représente qu’une fraction du coût d’entraînement de SD d’origine (6250 jours GPU A100). En augmentant la taille de l’ensemble de données, la taille du modèle et la durée de l’entraînement, les chercheurs estiment que les performances de SD en une seule étape s’amélioreront considérablement.
  • ControlNet en une seule étape : En appliquant notre pipeline pour entraîner des modèles ControlNet, il est possible d’obtenir des ControlNets en une seule étape capables de générer du contenu contrôlable en quelques millisecondes.
  • Personnalisation pour les modèles en une seule étape : En affinant SD avec l’objectif d’entraînement des modèles de diffusion et LORA, les utilisateurs peuvent personnaliser le SD pré-entraîné pour générer un contenu et des styles spécifiques.
  • Structure de réseau neuronal pour la génération en une seule étape : Avec l’avancée de la création de modèles SD en une seule étape utilisant le reflow conditionné par texte et la distillation, plusieurs directions intrigantes se dessinent :

(1) explorer des structures alternatives en une seule étape, telles que les architectures réussies utilisées dans les GAN, qui pourraient potentiellement surpasser l’U-Net en termes de qualité et d’efficacité ;

(2) exploiter des techniques telles que l’élagage, la quantification et d’autres approches pour construire des réseaux neuronaux efficaces afin de rendre la génération en une seule étape plus abordable en termes de calcul tout en minimisant une éventuelle dégradation de la qualité.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Pratiques recommandées en traçage distribué

La traçabilité distribuée est désormais un élément essentiel de la pile d'observabilité moderne. Avec le passage aux ...

AI

Les chercheurs de Microsoft présentent Table-GPT élever les modèles de langage pour exceller dans la compréhension et les tâches de tableau en deux dimensions.

Avec les récents développements dans le domaine de l’intelligence artificielle, les Modèles de Langage Large, y...

AI

L'impact des grands modèles de langage sur l'analyse des textes médicaux

Introduction Dans un monde en pleine révolution technologique, la fusion de l’intelligence artificielle et des ...

AI

Les meilleurs cours d'IA gratuits pour sécuriser votre carrière à l'avenir

Voici 8 des meilleurs cours d'IA gratuits auxquels vous pouvez vous inscrire dès aujourd'hui.

AI

Créez des codes QR époustouflants en utilisant ControlNet AI.

Vous pouvez rendre les codes QR incroyablement beaux avec ControlNet (un modèle d'IA de diffusion stable).

AI

Recherche de similitude pour l'incorporation un bouleversement dans l'analyse des données

Oracle a ajouté une fonctionnalité d'IA générative à son service d'analyse de données Cloud, permettant d'ingérer, de...