Suppression et distillation architecturales une voie vers une compression efficace dans les modèles de diffusion texte-image d’IA

Suppression et distillation architecturales une voie pour une compression efficace dans les modèles de diffusion texte-image d'IA.

Les modèles de diffusion texte-image représentent une approche révolutionnaire pour générer des images à partir de descriptions textuelles. Ils exploitent la puissance de l’apprentissage profond et de la modélisation probabiliste pour capturer les relations subtiles entre le langage et les concepts visuels. En conditionnant un modèle génératif sur des descriptions textuelles, ces modèles apprennent à synthétiser des images réalistes qui représentent fidèlement l’entrée donnée.

Le cœur des modèles de diffusion texte-image repose sur le concept de diffusion, un processus inspiré de la physique statistique. L’idée clé derrière la diffusion est de raffiner itérativement une image initialement bruyante, en la rendant progressivement plus réaliste et cohérente en suivant les gradients d’un modèle de diffusion appris. En étendant ce principe à la synthèse texte-image, les chercheurs ont obtenu des résultats remarquables, permettant la création d’images détaillées et haute résolution à partir de descriptions textuelles avec une fidélité et une diversité impressionnantes.

Cependant, l’entraînement de tels modèles pose des défis importants. La génération d’images de haute qualité à partir de descriptions textuelles nécessite de naviguer dans un espace visuel potentiellement vaste et complexe, ce qui rend difficile de garantir la stabilité pendant le processus d’apprentissage. La diffusion stable stabilise le processus d’entraînement en guidant le modèle pour capturer les sémantiques sous-jacentes du texte et générer des images cohérentes sans sacrifier la diversité. Cela permet une génération d’image plus fiable et contrôlée, permettant aux artistes, concepteurs et développeurs de produire un contenu visuel captivant avec une plus grande précision et un plus grand contrôle.

Cependant, un énorme inconvénient de la diffusion stable est que son architecture extensive exige des ressources informatiques significatives et entraîne un temps d’inférence prolongé. Pour répondre à cette préoccupation, plusieurs méthodes ont été proposées pour améliorer l’efficacité des modèles de diffusion stable (SDM). Certaines méthodes ont essayé de réduire le nombre d’étapes de débruitage en distillant un modèle de diffusion pré-entraîné, qui est utilisé pour guider un modèle similaire avec moins d’étapes d’échantillonnage. D’autres approches ont utilisé des techniques de quantification post-entraînement pour réduire la précision des poids et des activations du modèle. Le résultat est une taille de modèle réduite, des exigences de mémoire inférieures et une efficacité informatique améliorée.

Cependant, la réduction réalisable par ces techniques n’est pas substantielle. Par conséquent, d’autres solutions doivent être explorées, telles que la suppression d’éléments architecturaux dans les modèles de diffusion.

Le travail présenté dans cet article reflète cette motivation et dévoile le potentiel significatif des techniques de compression architecturale classiques pour obtenir des modèles de diffusion plus petits et plus rapides. Le pipeline de pré-entraînement est représenté dans la figure ci-dessous.

https://arxiv.org/abs/2305.15798

La procédure supprime plusieurs blocs résiduels et d’attention de l’architecture U-Net d’un modèle de diffusion stable (SDM) et pré-entraîne le modèle compact (ou étudiant) en utilisant une distillation de connaissances au niveau des caractéristiques (KD).

Certaines perspectives intrigantes sur la suppression de l’architecture incluent les étapes de descente, de montée et de mi-parcours.

Pour les étapes de descente et de montée, cette approche réduit le nombre de blocs résiduels et d’attention croisée inutiles dans l’architecture U-Net tout en préservant le traitement crucial de l’information spatiale. Elle est en accord avec la méthode DistilBERT et permet l’utilisation de poids pré-entraînés pour l’initialisation, ce qui donne un modèle plus efficace et plus compact.

Étonnamment, la suppression de l’étape de mi-parcours de l’U-Net d’origine a peu d’impact sur la qualité de la génération tout en réduisant considérablement les paramètres. Ce compromis entre l’efficacité de calcul et la qualité de génération en fait une option viable pour l’optimisation.

Selon les auteurs, chaque étudiant atteint une capacité exceptionnelle en synthèse texte-image (T2I) de haute qualité après avoir distillé les connaissances du professeur. Comparé à la diffusion stable, avec 1,04 milliard de paramètres et un score FID de 13,05, le modèle BK-SDM-Base, avec 0,76 milliard de paramètres, obtient un score FID de 15,76. De même, le modèle BK-SDM-Small, avec 0,66 milliard de paramètres, obtient un score FID de 16,98, et le modèle BK-SDM-Tiny, avec 0,50 milliard de paramètres, obtient un score FID de 17,12.

Des résultats sont présentés ici pour comparer visuellement les approches proposées et les approches de pointe.

https://arxiv.org/abs/2305.15798

Ce résumé d’une nouvelle technique de compression pour les modèles de diffusion Texte-vers-Image (T2I) se concentre sur la suppression intelligente des éléments architecturaux et les stratégies de distillation.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Apprenez l'IA ensemble - Towards AI Community Newsletter #3

Bonjour les passionnés d'IA ! Je suis ravi de partager l'épisode de podcast de cette semaine, où je discute avec Ken ...

Actualités sur l'IA

Meilleurs outils d'IA pour les gestionnaires de produits en 2023

L’expansion rapide du marché de l’IA a surpris et émerveillé les gens partout. En plus d’améliorer ...

Science des données

Apprentissage automatique à effets mixtes avec GPBoost pour données économétriques spatiales groupées et géographiques.

Apprentissage automatique à effets mixtes avec GPBoost pour les données économétriques spatiales groupées et spatiale...

AI

Promouvez les pipelines dans une configuration multi-environnement en utilisant Amazon SageMaker Model Registry, HashiCorp Terraform, GitHub et Jenkins CI/CD

Mettre en place une plateforme d'opérations d'apprentissage automatique (MLOps) dans le paysage en constante évolutio...

AI

Rencontrez MC-JEPA une architecture prédictive d'incorporation commune pour l'apprentissage auto-supervisé des caractéristiques de mouvement et de contenu.

Récemment, les techniques axées sur l’apprentissage des caractéristiques du contenu – en particulier, les...

AI

Percer le code du contexte Techniques de vectorisation de mots en TALN

Vous avez déménagé dans une nouvelle ville loin de votre pays, où vous avez rencontré quelqu'un par hasard dans un ca...