Découvrez PIXART-α un modèle de diffusion basé sur les Transformers-T2I dont la qualité de génération d’images est compétitive avec les générateurs d’images de pointe.
Découvrez PIXART-α un modèle de diffusion révolutionnaire basé sur les Transformers-T2I, offrant une qualité de génération d'images à la pointe de la compétition avec les générateurs d'images les plus avancés.
Une nouvelle ère de synthèse d’images photoréalistes vient de commencer grâce au développement de modèles générateurs de texte vers image (T2I) tels que DALLE 2, Imagen et Stable Diffusion. Cela a considérablement influencé de nombreuses applications en aval, notamment l’édition d’images, la production vidéo, la création d’actifs 3D, etc. Cependant, ces modèles sophistiqués nécessitent une puissance de traitement importante pour être entraînés. Par exemple, l’entraînement de SDv1.5 nécessite 6 jours de GPU A100 6K, ce qui coûte environ 320 000 $. Le modèle plus récent et plus grand, RAPHAEL, nécessite même 60 jours de GPU A100 60K, ce qui coûte environ 3 080 000 $. De plus, l’entraînement entraîne d’importantes émissions de CO2 qui mettent l’environnement sous pression ; par exemple, l’entraînement de RAPHAEL produit 35 tonnes d’émissions de CO2, soit la même quantité d’émissions qu’une personne produit pendant 7 ans, comme le montre la Figure 1.
Figure 1 : Comparaison des émissions de CO2 et des coûts d’entraînement entre les producteurs de T2I sont présentées ici. On dépense un montant remarquable de 26 000 $ pour la formation de PIXART-α. Nos émissions de CO2 et nos dépenses d’entraînement sont seulement 1,1% et 0,85% inférieures à celles de RAPHAEL.
Un tel prix élevé crée des restrictions majeures pour l’obtention de tels modèles à la fois pour la communauté de recherche et les entreprises, ce qui entrave considérablement les progrès essentiels de la communauté AIGC. Une question cruciale est soulevée concernant ces difficultés : peuvent-ils créer un générateur d’images de haute qualité avec une utilisation de ressources gérable ? Les chercheurs du Huawei Noah’s Ark Lab, de l’Université de technologie de Dalian, de l’HKU et de l’HKUST présentent PIXART-α, qui réduit considérablement les exigences de calcul de l’entraînement tout en maintenant une qualité de génération d’images compétitive par rapport aux générateurs d’images de pointe les plus récents. Ils proposent trois conceptions principales pour y parvenir : Décomposition du plan de formation. Ils décomposent le problème complexe de production de texte vers image en trois sous-tâches simples :
- L’algorithme de recherche à grande échelle de Facebook réaffecté pour naviguer efficacement dans les données protéomiques
- Cet article sur l’IA propose une méthode de cartographie basée sur NeRF qui permet une reconstruction de meilleure qualité et une capacité en temps réel même sur les ordinateurs périphériques.
- Déverrouiller les mystères des modèles de diffusion une exploration approfondie
- Apprentissage de la distribution des pixels dans les images naturelles
- Apprentissage de l’alignement texte-image
- Amélioration de l’attrait esthétique des images
Ils suggèrent de réduire considérablement le coût d’apprentissage pour la première sous-tâche en initialisant le modèle T2I avec un modèle à faible coût conditionné par classe. Ils proposent un paradigme de formation comprenant la préformation et le perfectionnement pour les deuxième et troisième sous-tâches : la préformation sur des données de paires texte-image à densité d’informations élevée, suivie du perfectionnement sur des données de qualité esthétique plus élevée, augmentant ainsi l’efficacité de la formation. Un transformateur T2I productif. Ils utilisent des modules de co-attention pour injecter les conditions de texte et simplifier la branche conditionnée par classe qui demande beaucoup de puissance de calcul pour augmenter l’efficacité basée sur le Diffusion Transformer (DiT). De plus, ils présentent une méthode de reparamétrage qui permet au modèle texte-vers-image modifié d’importer directement les paramètres du modèle de condition de classe original.
Ils peuvent ainsi utiliser les connaissances passées d’ImageNet sur la distribution des images naturelles pour fournir au transformateur T2I une initialisation acceptable et accélérer son entraînement. Informations de haute qualité. Leurs recherches révèlent des défauts significatifs dans les ensembles de données existants de paires texte-image, avec LAION comme exemple. Les légendes textuelles souffrent souvent d’un effet à longue traîne grave (c’est-à-dire que de nombreux noms apparaissent avec des fréquences extrêmement faibles) et d’un manque de contenu informatif (c’est-à-dire qu’ils décrivent généralement seulement une partie des objets dans les images). Ces défauts réduisent considérablement l’efficacité de la formation du modèle T2I et nécessitent des millions d’itérations pour obtenir des alignements texte-image fiables. Ils suggèrent un pipeline d’étiquetage automatique utilisant le modèle vision-langage le plus avancé pour produire des légendes sur le modèle SAM pour surmonter ces problèmes.
Le jeu de données SAM présente l’avantage de posséder une grande et diverse collection d’objets, ce qui en fait une source parfaite pour produire des paires texte-image avec une densité d’informations élevée, mieux adaptées à l’apprentissage de l’alignement texte-image. Leurs fonctionnalités astucieuses permettent à leur modèle de formation d’être extrêmement efficace, en utilisant seulement 675 jours de GPU A100 et 26 000 $. La Figure 1 montre comment leur approche utilise un volume de données d’entraînement inférieur (0,2 % vs Imagen) et un temps d’entraînement inférieur (2 % vs RAPHAEL) que Imagen. Leurs dépenses d’entraînement sont d’environ 1 % de celles de RAPHAEL, leur permettant d’économiser environ 3 000 000 $ (26 000 $ vs 3 080 000 $).
Concernant la qualité de génération, leurs essais de recherche utilisateur montrent que PIXART-α offre une meilleure qualité d’image et un alignement sémantique supérieur aux modèles SOTA T2I actuels, Stable Diffusion, etc. De plus, ses performances sur T2I-CompBench démontrent son avantage en matière de contrôle sémantique. Ils anticipent que leurs efforts pour former efficacement les modèles T2I fourniront à la communauté AIGC des informations utiles et aideront davantage d’universitaires indépendants ou d’entreprises à produire leurs propres modèles T2I de haute qualité à des prix plus abordables.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Vectoriser et paralléliser les environnements RL avec JAX l’apprentissage Q à la vitesse de la lumière⚡
- Algèbre linéaire 3 Équations vectorielles
- Démocratiser l’IA l’impact de MosaicML sur le mouvement LLM Open-Source
- Comprendre la coloration de graphes un concept essentiel en théorie des graphes
- Julia, une magie que trop peu de gens connaissent
- Un ensemble de données de référence pour les modèles météorologiques d’IA
- Tutoriel pour débutants Connecter les modèles GPT avec les données de l’entreprise dans Microsoft Azure