Stability AI présente la Distillation de Diffusion Adversaire (ADD) la méthode révolutionnaire pour une synthèse d’images haute fidélité en temps réel en un minimum d’étapes.

Stability AI présente la Distillation de Diffusion Adversaire (ADD) la méthode révolutionnaire pour une synthèse d'images haute fidélité en temps réel avec un minimum d'étapes.

Dans la modélisation générative, les modèles de diffusion (DM) ont joué un rôle essentiel, facilitant les progrès récents dans la production de synthèse d’images et de vidéos de haute qualité. La scalabilité et l’itérativité sont deux des principaux avantages des DM; ils leur permettent d’effectuer des tâches complexes telles que la création d’images à partir d’indices textuels libres. Malheureusement, les nombreuses étapes d’échantillonnage nécessaires pour le processus d’inférence itérative entravent actuellement l’utilisation en temps réel des DM. D’autre part, la formulation en une seule étape et la vitesse intrinsèque des réseaux génératifs antagonistes (GAN) les distinguent. Cependant, en ce qui concerne la qualité de l’échantillon, les GAN ont souvent besoin de plus de DM malgré les efforts pour les étendre à des ensembles de données massifs.

Les chercheurs de Stability AI dans cette étude cherchent à fusionner la vitesse inhérente des GAN avec une meilleure qualité d’échantillon des DM. Leur stratégie est conceptuellement simple: l’équipe d’étude propose la distillation de diffusion antagoniste (ADD), une technique générique qui garantit une bonne fidélité d’échantillonnage et qui peut potentiellement améliorer les performances globales du modèle en réduisant le nombre d’étapes d’inférence d’un modèle de diffusion pré-entraîné à 1-4 étapes d’échantillonnage. L’équipe de recherche combine deux objectifs de formation: (i) une perte de distillation équivalente à l’échantillonnage de distillation de score (SDS) avec une perte antagoniste.

À chaque passage en avant, la perte antagoniste encourage le modèle à produire des échantillons se situant sur la manif des images réelles, éliminant ainsi les artefacts tels que le flou souvent observé dans d’autres techniques de distillation. Pour conserver la haute compositionnalité observée dans les grands DM et tirer parti efficacement des connaissances substantielles du DM pré-entraîné, la perte de distillation utilise un autre DM pré-entraîné (et fixe) en tant qu’enseignant. Leur méthode réduit encore les besoins en mémoire en n’utilisant pas de guidage libre de classificateur pendant l’inférence. L’avantage par rapport aux méthodes précédentes basées sur les GAN en une seule étape est que l’équipe de recherche peut continuer à développer le modèle de manière itérative et améliorer les résultats.

Figure 1 montre des photos haute fidélité générées en une seule opération. La formation de distillation de diffusion antagoniste (ADD) est utilisée pour créer une évaluation U-Net unique pour chaque échantillon.

Voici un résumé de leurs contributions:

• L’équipe de recherche présente ADD, une technique qui ne nécessite que 1 à 4 étapes d’échantillonnage pour convertir des modèles de diffusion pré-entraînés en générateurs d’images en temps réel haute fidélité. L’équipe d’étude a soigneusement pris en compte plusieurs décisions de conception pour leur approche unique, qui associe une formation antagoniste à une distillation de score.

• ADD-XL surpasse son modèle enseignant, SDXL-Base, à une résolution de 5122 px en utilisant quatre étapes d’échantillonnage. • ADD peut gérer des compositions d’images complexes tout en maintenant un haut niveau de réalisme en une seule étape d’inférence. • ADD surpasse significativement des références solides telles que LCM, LCM-XL et les GAN en une seule étape.

En conclusion, cette étude présente une technique générique pour distiller un modèle de diffusion pré-entraîné en un modèle rapide de génération d’images en quelques étapes: la distillation de diffusion antagoniste. En utilisant des données réelles à travers le discriminateur et des connaissances structurelles à travers l’instructeur de diffusion, l’équipe de recherche combine un objectif antagoniste et une distillation de score pour distiller les modèles publics de diffusion stable et SDXL. Leur analyse montre que leur technique surpasse toutes les approches concurrentes et fonctionne particulièrement bien dans le régime d’échantillonnage ultra rapide d’une ou deux étapes. De plus, l’équipe de recherche peut encore améliorer les échantillons grâce à plusieurs processus. Leur modèle fonctionne mieux avec quatre étapes d’échantillonnage que les générateurs multi-étapes populaires tels que IF, SDXL et OpenMUSE. Leur méthodologie ouvre de nouvelles possibilités pour la génération en temps réel en utilisant des modèles de base en permettant le développement de photos de haute qualité en une seule étape.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Apple et Google ignorent ChatGPT comme Application de l'année

Dans un revirement surprenant, les géants de la technologie Apple et Google se sont écartés de leurs habitudes habitu...

AI

Une étude sur divers modèles de prévisions météorologiques basés sur l'apprentissage en profondeur

En raison de son impact sur la vie humaine dans le monde entier, la prévision météorologique a suscité l’intérê...

AI

Des chercheurs de KAIST présentent FaceCLIPNeRF un pipeline de manipulation textuelle d'un visage en 3D utilisant NeRF déformable.

Un composant crucial des améliorations du contenu numérique humain en 3D est la capacité à manipuler facilement la re...

AI

La recherche de Google DeepMind explore le phénomène énigmatique du grokking dans les réseaux neuronaux révéler l'interaction entre la mémorisation et la généralisation.

La théorie traditionnelle de l’apprentissage et de la généralisation des réseaux neuronaux est mise à l’é...

AI

Cet article sur l'IA dévoile les dernières informations d'Amazon sur les connaissances en apprentissage automatique concernant le code buggé dans les grands modèles de langage.

La programmation peut être complexe et écrire du code sans erreur est parfois possible. De grands modèles de langue d...