Les chercheurs de Google et de l’Université John Hopkins révèlent une méthode de distillation plus rapide et plus efficace pour la génération de texte en image surmonter les limitations du modèle de diffusion.

Les chercheurs de Google et de l'Université John Hopkins dévoilent une nouvelle méthode de distillation plus rapide et plus efficace pour générer du texte en image, surmontant les limites du modèle de diffusion.

En produisant des résultats variés et de haute qualité, les modèles de diffusion texte-image formés sur des données à grande échelle ont considérablement dominé les tâches génératives. Dans une tendance récemment développée, des tâches de transformation d’image typiques, telles que l’altération, l’amélioration ou la super-résolution d’image, sont guidées par les résultats générés avec des conditions d’image externes utilisant la diffusion avant les modèles génératifs texte-image pré-entraînés. La diffusion introduite par les modèles pré-entraînés s’est avérée augmenter significativement la qualité visuelle des sorties de production d’image conditionnelle parmi différentes procédures de transformation. Cependant, les modèles de diffusion dépendent grandement d’un processus de raffinement itératif qui nécessite souvent de nombreuses répétitions, ce qui peut prendre du temps pour être effectué efficacement. 

Cette dépendance au nombre de répétitions augmente encore plus pour la synthèse d’images haute résolution. Par exemple, même avec des techniques d’échantillonnage sophistiquées, une excellente qualité visuelle dans les modèles de diffusion latente texte-image de pointe nécessite souvent 20 à 200 étapes d’échantillonnage. La lenteur de la période d’échantillonnage limite considérablement l’applicabilité pratique des modèles de diffusion conditionnelle mentionnés ci-dessus. Les tentatives les plus récentes pour accélérer l’échantillonnage de diffusion utilisent des techniques de distillation. Ces techniques accélèrent considérablement l’échantillonnage, le terminant en 4 à 8 étapes tout en affectant peu les performances génératives. Des recherches récentes montrent que ces techniques peuvent également être utilisées pour condenser des modèles de diffusion texte-image à grande échelle déjà entraînés. 

Figure 1 montre comment notre technique convertit immédiatement le modèle non conditionnel en un modèle de diffusion conditionnel.

Ils fournissent la sortie de notre modèle distillé dans une variété de tâches conditionnelles, illustrant la capacité de notre approche suggérée à reproduire les antécédents de diffusion dans une période d’échantillonnage condensée.

Sur la base de ces méthodes de distillation, un processus de distillation en deux étapes – soit une distillation en premier lieu, soit un perfectionnement conditionnel en premier lieu – peut être utilisé pour distiller des modèles de diffusion conditionnels. Lorsqu’on leur donne la même période d’échantillonnage, ces deux techniques donnent généralement des résultats supérieurs à ceux du modèle de diffusion conditionnel non distillé. Cependant, elles présentent des avantages différents en ce qui concerne la flexibilité entre les tâches et la difficulté d’apprentissage. Dans ce travail, ils présentent une nouvelle méthode de distillation pour extraire un modèle de diffusion conditionnel à partir d’un modèle de diffusion non conditionnel déjà entraîné. Leur approche comporte une seule étape, commençant par le pré-entraînement non conditionnel et se terminant par le modèle de diffusion conditionnelle distillé, contrairement à la technique de distillation en deux étapes traditionnelle. 

La figure 1 illustre comment leur modèle distillé peut prédire des résultats de haute qualité en seulement un quart des étapes d’échantillonnage en s’inspirant des paramètres visuels donnés. Leur technique est plus pratique car cet apprentissage simplifié élimine le besoin des données texte-image d’origine, qui étaient nécessaires dans les processus de distillation précédents. Ils évitent également de compromettre les antécédents de diffusion dans le modèle pré-entraîné, une erreur courante lors de l’utilisation de la méthode de perfectionnement en premier lieu dans sa première étape. Les données expérimentales étendues montrent que leur modèle distillé performe mieux que les techniques de distillation précédentes tant au niveau de la qualité visuelle que des performances quantitatives. 

Un domaine qui nécessite des recherches supplémentaires concerne les techniques de distillation efficaces en termes de paramètres pour la génération conditionnelle. Ils montrent que leur approche propose un nouveau mécanisme de distillation efficace en termes de paramètres. En ajoutant quelques paramètres d’apprentissage supplémentaires, il peut convertir et accélérer un modèle de diffusion non conditionnel pour des tâches conditionnelles. Leur formulation, en particulier, permet l’intégration de plusieurs techniques d’accordage efficaces en termes de paramètres déjà utilisées, telles que T2I-Adapter et ControlNet. En utilisant à la fois les paramètres d’adaptateur conditionnel nouvellement ajoutés et les paramètres figés du modèle de diffusion d’origine, leur technique de distillation apprend à reproduire les antécédents de diffusion pour les tâches dépendantes avec un minimum de révisions itératives. Ce nouveau paradigme a considérablement accru l’utilité de plusieurs tâches conditionnelles.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Un guide complet sur PandasAI

Introduction L’IA générative et les modèles de langage de grande envergure (LLM) ont apporté une nouvelle ère à...

AI

De la connectivité à l'intelligence comment la blockchain et l'IA transforment l'écosystème de l'IoT

La blockchain est une structure de données sécurisée, décentralisée, distribuée et horodatée qui offre des solutions ...

AI

Les chercheurs de Microsoft dévoilent PromptTTS 2 Révolutionner la synthèse vocale avec une variabilité vocale améliorée et une génération de prompts rentable.

L’intelligibilité et le naturel de la parole synthétisée ont été améliorés grâce aux récents développements des...

AI

Découvrez SelFee un LLM auto-révisé itératif renforcé par la génération de rétroaction auto-alimentée.

Une étude récente a souligné l’efficacité des retours en langage naturel pour améliorer les performances des mo...

Apprentissage automatique

10 cours courts gratuits pour maîtriser l'Intelligence Artificielle Générative.

Google vient de rendre l'apprentissage de l'IA générative plus facile que jamais avec 10 cours courts gratuits.

AI

Cette recherche en IA présente des méthodes révolutionnaires pour adapter les modèles linguistiques à la conception de puces.

ChipNeMo explore l’utilisation des modèles de langage à grande échelle pour la conception de puces industrielle...