Les chercheurs de Google et de l’Université John Hopkins révèlent une méthode de distillation plus rapide et plus efficace pour la génération de texte en image surmonter les limitations du modèle de diffusion.

Les chercheurs de Google et de l'Université John Hopkins dévoilent une nouvelle méthode de distillation plus rapide et plus efficace pour générer du texte en image, surmontant les limites du modèle de diffusion.

En produisant des résultats variés et de haute qualité, les modèles de diffusion texte-image formés sur des données à grande échelle ont considérablement dominé les tâches génératives. Dans une tendance récemment développée, des tâches de transformation d’image typiques, telles que l’altération, l’amélioration ou la super-résolution d’image, sont guidées par les résultats générés avec des conditions d’image externes utilisant la diffusion avant les modèles génératifs texte-image pré-entraînés. La diffusion introduite par les modèles pré-entraînés s’est avérée augmenter significativement la qualité visuelle des sorties de production d’image conditionnelle parmi différentes procédures de transformation. Cependant, les modèles de diffusion dépendent grandement d’un processus de raffinement itératif qui nécessite souvent de nombreuses répétitions, ce qui peut prendre du temps pour être effectué efficacement. 

Cette dépendance au nombre de répétitions augmente encore plus pour la synthèse d’images haute résolution. Par exemple, même avec des techniques d’échantillonnage sophistiquées, une excellente qualité visuelle dans les modèles de diffusion latente texte-image de pointe nécessite souvent 20 à 200 étapes d’échantillonnage. La lenteur de la période d’échantillonnage limite considérablement l’applicabilité pratique des modèles de diffusion conditionnelle mentionnés ci-dessus. Les tentatives les plus récentes pour accélérer l’échantillonnage de diffusion utilisent des techniques de distillation. Ces techniques accélèrent considérablement l’échantillonnage, le terminant en 4 à 8 étapes tout en affectant peu les performances génératives. Des recherches récentes montrent que ces techniques peuvent également être utilisées pour condenser des modèles de diffusion texte-image à grande échelle déjà entraînés. 

Figure 1 montre comment notre technique convertit immédiatement le modèle non conditionnel en un modèle de diffusion conditionnel.

Ils fournissent la sortie de notre modèle distillé dans une variété de tâches conditionnelles, illustrant la capacité de notre approche suggérée à reproduire les antécédents de diffusion dans une période d’échantillonnage condensée.

Sur la base de ces méthodes de distillation, un processus de distillation en deux étapes – soit une distillation en premier lieu, soit un perfectionnement conditionnel en premier lieu – peut être utilisé pour distiller des modèles de diffusion conditionnels. Lorsqu’on leur donne la même période d’échantillonnage, ces deux techniques donnent généralement des résultats supérieurs à ceux du modèle de diffusion conditionnel non distillé. Cependant, elles présentent des avantages différents en ce qui concerne la flexibilité entre les tâches et la difficulté d’apprentissage. Dans ce travail, ils présentent une nouvelle méthode de distillation pour extraire un modèle de diffusion conditionnel à partir d’un modèle de diffusion non conditionnel déjà entraîné. Leur approche comporte une seule étape, commençant par le pré-entraînement non conditionnel et se terminant par le modèle de diffusion conditionnelle distillé, contrairement à la technique de distillation en deux étapes traditionnelle. 

La figure 1 illustre comment leur modèle distillé peut prédire des résultats de haute qualité en seulement un quart des étapes d’échantillonnage en s’inspirant des paramètres visuels donnés. Leur technique est plus pratique car cet apprentissage simplifié élimine le besoin des données texte-image d’origine, qui étaient nécessaires dans les processus de distillation précédents. Ils évitent également de compromettre les antécédents de diffusion dans le modèle pré-entraîné, une erreur courante lors de l’utilisation de la méthode de perfectionnement en premier lieu dans sa première étape. Les données expérimentales étendues montrent que leur modèle distillé performe mieux que les techniques de distillation précédentes tant au niveau de la qualité visuelle que des performances quantitatives. 

Un domaine qui nécessite des recherches supplémentaires concerne les techniques de distillation efficaces en termes de paramètres pour la génération conditionnelle. Ils montrent que leur approche propose un nouveau mécanisme de distillation efficace en termes de paramètres. En ajoutant quelques paramètres d’apprentissage supplémentaires, il peut convertir et accélérer un modèle de diffusion non conditionnel pour des tâches conditionnelles. Leur formulation, en particulier, permet l’intégration de plusieurs techniques d’accordage efficaces en termes de paramètres déjà utilisées, telles que T2I-Adapter et ControlNet. En utilisant à la fois les paramètres d’adaptateur conditionnel nouvellement ajoutés et les paramètres figés du modèle de diffusion d’origine, leur technique de distillation apprend à reproduire les antécédents de diffusion pour les tâches dépendantes avec un minimum de révisions itératives. Ce nouveau paradigme a considérablement accru l’utilité de plusieurs tâches conditionnelles.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Cette recherche en IA de DeepMind vise à réduire la flagornerie dans les modèles de langage de grande taille (LLM) en utilisant des données synthétiques simples.

Les modèles de langage de grande envergure (LLMs) ont considérablement évolué ces dernières années et sont désormais ...

AI

Le président Biden honore les scientifiques, les technologistes et les innovateurs américains de premier plan.

La Médaille nationale de la Technologie et de l’Innovation est la plus haute distinction nationale en matière de réal...

AI

Révolutionner la conception des protéines Comment cette recherche en IA a multiplié par 10 les taux de réussite grâce aux améliorations de l'apprentissage profond

Les protéines sont des structures polymériques qui régissent presque toutes les maladies. Le principal problème est d...

AI

Découvrez SQLCoder un nouveau modèle open source de pointe pour convertir les questions en langage naturel en requêtes SQL.

Defog.ai a publié SQLCoder, un modèle de pointe pour traduire les requêtes en langage naturel en requêtes de base de ...

AI

Robot Polyvalent Change de Forme pour Différents Usages

Un robot en forme de tétraèdre développé par des chercheurs de l'Université de Bristol au Royaume-Uni présente des tu...