Suppression et distillation architecturales une voie vers une compression efficace dans les modèles de diffusion texte-image d’IA
Suppression et distillation architecturales une voie pour une compression efficace dans les modèles de diffusion texte-image d'IA.
Les modèles de diffusion texte-image représentent une approche révolutionnaire pour générer des images à partir de descriptions textuelles. Ils exploitent la puissance de l’apprentissage profond et de la modélisation probabiliste pour capturer les relations subtiles entre le langage et les concepts visuels. En conditionnant un modèle génératif sur des descriptions textuelles, ces modèles apprennent à synthétiser des images réalistes qui représentent fidèlement l’entrée donnée.
Le cœur des modèles de diffusion texte-image repose sur le concept de diffusion, un processus inspiré de la physique statistique. L’idée clé derrière la diffusion est de raffiner itérativement une image initialement bruyante, en la rendant progressivement plus réaliste et cohérente en suivant les gradients d’un modèle de diffusion appris. En étendant ce principe à la synthèse texte-image, les chercheurs ont obtenu des résultats remarquables, permettant la création d’images détaillées et haute résolution à partir de descriptions textuelles avec une fidélité et une diversité impressionnantes.
Cependant, l’entraînement de tels modèles pose des défis importants. La génération d’images de haute qualité à partir de descriptions textuelles nécessite de naviguer dans un espace visuel potentiellement vaste et complexe, ce qui rend difficile de garantir la stabilité pendant le processus d’apprentissage. La diffusion stable stabilise le processus d’entraînement en guidant le modèle pour capturer les sémantiques sous-jacentes du texte et générer des images cohérentes sans sacrifier la diversité. Cela permet une génération d’image plus fiable et contrôlée, permettant aux artistes, concepteurs et développeurs de produire un contenu visuel captivant avec une plus grande précision et un plus grand contrôle.
- Google AI dévoile Imagen Editor et EditBench pour améliorer et évaluer l’Inpainting d’image guidée par le texte.
- Forged in Flames Une start-up fusionne l’IA générative et la vision par ordinateur pour lutter contre les incendies de forêt.
- AI Voit Ce Que Vous Voyez Mind’s Eye est un Modèle d’IA Qui Peut Reconstruire des Scans Cérébraux en Images
Cependant, un énorme inconvénient de la diffusion stable est que son architecture extensive exige des ressources informatiques significatives et entraîne un temps d’inférence prolongé. Pour répondre à cette préoccupation, plusieurs méthodes ont été proposées pour améliorer l’efficacité des modèles de diffusion stable (SDM). Certaines méthodes ont essayé de réduire le nombre d’étapes de débruitage en distillant un modèle de diffusion pré-entraîné, qui est utilisé pour guider un modèle similaire avec moins d’étapes d’échantillonnage. D’autres approches ont utilisé des techniques de quantification post-entraînement pour réduire la précision des poids et des activations du modèle. Le résultat est une taille de modèle réduite, des exigences de mémoire inférieures et une efficacité informatique améliorée.
Cependant, la réduction réalisable par ces techniques n’est pas substantielle. Par conséquent, d’autres solutions doivent être explorées, telles que la suppression d’éléments architecturaux dans les modèles de diffusion.
Le travail présenté dans cet article reflète cette motivation et dévoile le potentiel significatif des techniques de compression architecturale classiques pour obtenir des modèles de diffusion plus petits et plus rapides. Le pipeline de pré-entraînement est représenté dans la figure ci-dessous.
La procédure supprime plusieurs blocs résiduels et d’attention de l’architecture U-Net d’un modèle de diffusion stable (SDM) et pré-entraîne le modèle compact (ou étudiant) en utilisant une distillation de connaissances au niveau des caractéristiques (KD).
Certaines perspectives intrigantes sur la suppression de l’architecture incluent les étapes de descente, de montée et de mi-parcours.
Pour les étapes de descente et de montée, cette approche réduit le nombre de blocs résiduels et d’attention croisée inutiles dans l’architecture U-Net tout en préservant le traitement crucial de l’information spatiale. Elle est en accord avec la méthode DistilBERT et permet l’utilisation de poids pré-entraînés pour l’initialisation, ce qui donne un modèle plus efficace et plus compact.
Étonnamment, la suppression de l’étape de mi-parcours de l’U-Net d’origine a peu d’impact sur la qualité de la génération tout en réduisant considérablement les paramètres. Ce compromis entre l’efficacité de calcul et la qualité de génération en fait une option viable pour l’optimisation.
Selon les auteurs, chaque étudiant atteint une capacité exceptionnelle en synthèse texte-image (T2I) de haute qualité après avoir distillé les connaissances du professeur. Comparé à la diffusion stable, avec 1,04 milliard de paramètres et un score FID de 13,05, le modèle BK-SDM-Base, avec 0,76 milliard de paramètres, obtient un score FID de 15,76. De même, le modèle BK-SDM-Small, avec 0,66 milliard de paramètres, obtient un score FID de 16,98, et le modèle BK-SDM-Tiny, avec 0,50 milliard de paramètres, obtient un score FID de 17,12.
Des résultats sont présentés ici pour comparer visuellement les approches proposées et les approches de pointe.
Ce résumé d’une nouvelle technique de compression pour les modèles de diffusion Texte-vers-Image (T2I) se concentre sur la suppression intelligente des éléments architecturaux et les stratégies de distillation.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Il était une fois… une histoire de RAPIDS Aller et Retour
- Écrire des chansons avec GPT-4 Partie 3, Mélodies
- Formation intensive gratuite Full Stack LLM
- Performance surhumaine sur la référence Atari 100K La puissance de BBF – Un nouvel agent RL basé sur la valeur de Google DeepMind, Mila et l’Université de Montréal.
- 10 cours courts gratuits pour maîtriser l’Intelligence Artificielle Générative.
- Perte NT-Xent (Entropie croisée normalisée à température échelonnée) expliquée et implémentée en PyTorch
- Comprendre Policy Gradient en construisant Cross Entropy à partir de zéro