Suppression et distillation architecturales une voie vers une compression efficace dans les modèles de diffusion texte-image d’IA

Suppression et distillation architecturales une voie pour une compression efficace dans les modèles de diffusion texte-image d'IA.

Les modèles de diffusion texte-image représentent une approche révolutionnaire pour générer des images à partir de descriptions textuelles. Ils exploitent la puissance de l’apprentissage profond et de la modélisation probabiliste pour capturer les relations subtiles entre le langage et les concepts visuels. En conditionnant un modèle génératif sur des descriptions textuelles, ces modèles apprennent à synthétiser des images réalistes qui représentent fidèlement l’entrée donnée.

Le cœur des modèles de diffusion texte-image repose sur le concept de diffusion, un processus inspiré de la physique statistique. L’idée clé derrière la diffusion est de raffiner itérativement une image initialement bruyante, en la rendant progressivement plus réaliste et cohérente en suivant les gradients d’un modèle de diffusion appris. En étendant ce principe à la synthèse texte-image, les chercheurs ont obtenu des résultats remarquables, permettant la création d’images détaillées et haute résolution à partir de descriptions textuelles avec une fidélité et une diversité impressionnantes.

Cependant, l’entraînement de tels modèles pose des défis importants. La génération d’images de haute qualité à partir de descriptions textuelles nécessite de naviguer dans un espace visuel potentiellement vaste et complexe, ce qui rend difficile de garantir la stabilité pendant le processus d’apprentissage. La diffusion stable stabilise le processus d’entraînement en guidant le modèle pour capturer les sémantiques sous-jacentes du texte et générer des images cohérentes sans sacrifier la diversité. Cela permet une génération d’image plus fiable et contrôlée, permettant aux artistes, concepteurs et développeurs de produire un contenu visuel captivant avec une plus grande précision et un plus grand contrôle.

Cependant, un énorme inconvénient de la diffusion stable est que son architecture extensive exige des ressources informatiques significatives et entraîne un temps d’inférence prolongé. Pour répondre à cette préoccupation, plusieurs méthodes ont été proposées pour améliorer l’efficacité des modèles de diffusion stable (SDM). Certaines méthodes ont essayé de réduire le nombre d’étapes de débruitage en distillant un modèle de diffusion pré-entraîné, qui est utilisé pour guider un modèle similaire avec moins d’étapes d’échantillonnage. D’autres approches ont utilisé des techniques de quantification post-entraînement pour réduire la précision des poids et des activations du modèle. Le résultat est une taille de modèle réduite, des exigences de mémoire inférieures et une efficacité informatique améliorée.

Cependant, la réduction réalisable par ces techniques n’est pas substantielle. Par conséquent, d’autres solutions doivent être explorées, telles que la suppression d’éléments architecturaux dans les modèles de diffusion.

Le travail présenté dans cet article reflète cette motivation et dévoile le potentiel significatif des techniques de compression architecturale classiques pour obtenir des modèles de diffusion plus petits et plus rapides. Le pipeline de pré-entraînement est représenté dans la figure ci-dessous.

https://arxiv.org/abs/2305.15798

La procédure supprime plusieurs blocs résiduels et d’attention de l’architecture U-Net d’un modèle de diffusion stable (SDM) et pré-entraîne le modèle compact (ou étudiant) en utilisant une distillation de connaissances au niveau des caractéristiques (KD).

Certaines perspectives intrigantes sur la suppression de l’architecture incluent les étapes de descente, de montée et de mi-parcours.

Pour les étapes de descente et de montée, cette approche réduit le nombre de blocs résiduels et d’attention croisée inutiles dans l’architecture U-Net tout en préservant le traitement crucial de l’information spatiale. Elle est en accord avec la méthode DistilBERT et permet l’utilisation de poids pré-entraînés pour l’initialisation, ce qui donne un modèle plus efficace et plus compact.

Étonnamment, la suppression de l’étape de mi-parcours de l’U-Net d’origine a peu d’impact sur la qualité de la génération tout en réduisant considérablement les paramètres. Ce compromis entre l’efficacité de calcul et la qualité de génération en fait une option viable pour l’optimisation.

Selon les auteurs, chaque étudiant atteint une capacité exceptionnelle en synthèse texte-image (T2I) de haute qualité après avoir distillé les connaissances du professeur. Comparé à la diffusion stable, avec 1,04 milliard de paramètres et un score FID de 13,05, le modèle BK-SDM-Base, avec 0,76 milliard de paramètres, obtient un score FID de 15,76. De même, le modèle BK-SDM-Small, avec 0,66 milliard de paramètres, obtient un score FID de 16,98, et le modèle BK-SDM-Tiny, avec 0,50 milliard de paramètres, obtient un score FID de 17,12.

Des résultats sont présentés ici pour comparer visuellement les approches proposées et les approches de pointe.

https://arxiv.org/abs/2305.15798

Ce résumé d’une nouvelle technique de compression pour les modèles de diffusion Texte-vers-Image (T2I) se concentre sur la suppression intelligente des éléments architecturaux et les stratégies de distillation.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Une IA scanne les yeux pour repérer la maladie de Parkinson des années avant le diagnostic

Il s'avère que les fenêtres de l'âme peuvent nous apprendre beaucoup sur notre propre santé.

AI

Les chercheurs de l'Université de Pennsylvanie ont introduit une approche alternative d'IA pour concevoir et programmer des ordinateurs réservoir basés sur des RNN.

Le cerveau humain est l’un des systèmes les plus complexes que la nature ait jamais créés. Les neurones interag...

AI

Comment j'ai créé une animation des embeddings pendant le fine-tuning

Dans le domaine de l'apprentissage automatique, les Vision Transformers (ViT) sont un type de modèle utilisé pour la ...

AI

Classification simple de texte à l'aide de Fasttext

Le traitement automatique du langage naturel est appliqué à des cas d'utilisation commerciale à un rythme exponentiel...

AI

Un nouvel article sur l'IA explique les différents niveaux d'expertise que peuvent avoir les grands modèles de langage en tant que machines à motifs généraux.

Les LLM, ou grands modèles de langage, sont enseignés à incorporer les nombreux schémas tissés dans la structure d...