Les chercheurs de Google et de l’Université John Hopkins révèlent une méthode de distillation plus rapide et plus efficace pour la génération de texte en image surmonter les limitations du modèle de diffusion.
Les chercheurs de Google et de l'Université John Hopkins dévoilent une nouvelle méthode de distillation plus rapide et plus efficace pour générer du texte en image, surmontant les limites du modèle de diffusion.
En produisant des résultats variés et de haute qualité, les modèles de diffusion texte-image formés sur des données à grande échelle ont considérablement dominé les tâches génératives. Dans une tendance récemment développée, des tâches de transformation d’image typiques, telles que l’altération, l’amélioration ou la super-résolution d’image, sont guidées par les résultats générés avec des conditions d’image externes utilisant la diffusion avant les modèles génératifs texte-image pré-entraînés. La diffusion introduite par les modèles pré-entraînés s’est avérée augmenter significativement la qualité visuelle des sorties de production d’image conditionnelle parmi différentes procédures de transformation. Cependant, les modèles de diffusion dépendent grandement d’un processus de raffinement itératif qui nécessite souvent de nombreuses répétitions, ce qui peut prendre du temps pour être effectué efficacement.
Cette dépendance au nombre de répétitions augmente encore plus pour la synthèse d’images haute résolution. Par exemple, même avec des techniques d’échantillonnage sophistiquées, une excellente qualité visuelle dans les modèles de diffusion latente texte-image de pointe nécessite souvent 20 à 200 étapes d’échantillonnage. La lenteur de la période d’échantillonnage limite considérablement l’applicabilité pratique des modèles de diffusion conditionnelle mentionnés ci-dessus. Les tentatives les plus récentes pour accélérer l’échantillonnage de diffusion utilisent des techniques de distillation. Ces techniques accélèrent considérablement l’échantillonnage, le terminant en 4 à 8 étapes tout en affectant peu les performances génératives. Des recherches récentes montrent que ces techniques peuvent également être utilisées pour condenser des modèles de diffusion texte-image à grande échelle déjà entraînés.
Ils fournissent la sortie de notre modèle distillé dans une variété de tâches conditionnelles, illustrant la capacité de notre approche suggérée à reproduire les antécédents de diffusion dans une période d’échantillonnage condensée.
- Modélisation des caractéristiques saisonnières variables avec la transformation de Fourier
- Des chercheurs de Stanford proposent des DDBMs une extension simple et évolutive des modèles de diffusion adaptée aux problèmes de traduction de distribution.
- Leadership basée sur les données Construire une organisation axée sur les données avec Srikanth Velamakanni
Sur la base de ces méthodes de distillation, un processus de distillation en deux étapes – soit une distillation en premier lieu, soit un perfectionnement conditionnel en premier lieu – peut être utilisé pour distiller des modèles de diffusion conditionnels. Lorsqu’on leur donne la même période d’échantillonnage, ces deux techniques donnent généralement des résultats supérieurs à ceux du modèle de diffusion conditionnel non distillé. Cependant, elles présentent des avantages différents en ce qui concerne la flexibilité entre les tâches et la difficulté d’apprentissage. Dans ce travail, ils présentent une nouvelle méthode de distillation pour extraire un modèle de diffusion conditionnel à partir d’un modèle de diffusion non conditionnel déjà entraîné. Leur approche comporte une seule étape, commençant par le pré-entraînement non conditionnel et se terminant par le modèle de diffusion conditionnelle distillé, contrairement à la technique de distillation en deux étapes traditionnelle.
La figure 1 illustre comment leur modèle distillé peut prédire des résultats de haute qualité en seulement un quart des étapes d’échantillonnage en s’inspirant des paramètres visuels donnés. Leur technique est plus pratique car cet apprentissage simplifié élimine le besoin des données texte-image d’origine, qui étaient nécessaires dans les processus de distillation précédents. Ils évitent également de compromettre les antécédents de diffusion dans le modèle pré-entraîné, une erreur courante lors de l’utilisation de la méthode de perfectionnement en premier lieu dans sa première étape. Les données expérimentales étendues montrent que leur modèle distillé performe mieux que les techniques de distillation précédentes tant au niveau de la qualité visuelle que des performances quantitatives.
Un domaine qui nécessite des recherches supplémentaires concerne les techniques de distillation efficaces en termes de paramètres pour la génération conditionnelle. Ils montrent que leur approche propose un nouveau mécanisme de distillation efficace en termes de paramètres. En ajoutant quelques paramètres d’apprentissage supplémentaires, il peut convertir et accélérer un modèle de diffusion non conditionnel pour des tâches conditionnelles. Leur formulation, en particulier, permet l’intégration de plusieurs techniques d’accordage efficaces en termes de paramètres déjà utilisées, telles que T2I-Adapter et ControlNet. En utilisant à la fois les paramètres d’adaptateur conditionnel nouvellement ajoutés et les paramètres figés du modèle de diffusion d’origine, leur technique de distillation apprend à reproduire les antécédents de diffusion pour les tâches dépendantes avec un minimum de révisions itératives. Ce nouveau paradigme a considérablement accru l’utilité de plusieurs tâches conditionnelles.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cette recherche en intelligence artificielle propose Kosmos-G un modèle d’intelligence artificielle qui réalise une génération d’images de haute fidélité sans apprentissage à partir d’une entrée de vision-langage généralisée en exploitant la propriété
- Cette recherche en IA dévoile ‘Kandinsky1’ une nouvelle approche dans la génération de texte vers image par diffusion latente, avec des scores FID exceptionnels sur COCO-30K.
- GPT-4V(ision) d’OpenAI une percée dans la frontière multimodale de l’IA
- LangChain 101 Partie 2d. Ajuster finement les modèles de langage avec les commentaires humains
- Un guide complet sur ZenML pour les débutants simplifiant MLOps.
- Équité dans l’apprentissage automatique (Partie 1)
- Se concentrez sur les éviers et où les cacher un parcours visuel pour la mise en œuvre du streaming LLM