Découvrez PIXART-α un modèle de diffusion basé sur les Transformers-T2I dont la qualité de génération d’images est compétitive avec les générateurs d’images de pointe.

Découvrez PIXART-α un modèle de diffusion révolutionnaire basé sur les Transformers-T2I, offrant une qualité de génération d'images à la pointe de la compétition avec les générateurs d'images les plus avancés.

Une nouvelle ère de synthèse d’images photoréalistes vient de commencer grâce au développement de modèles générateurs de texte vers image (T2I) tels que DALLE 2, Imagen et Stable Diffusion. Cela a considérablement influencé de nombreuses applications en aval, notamment l’édition d’images, la production vidéo, la création d’actifs 3D, etc. Cependant, ces modèles sophistiqués nécessitent une puissance de traitement importante pour être entraînés. Par exemple, l’entraînement de SDv1.5 nécessite 6 jours de GPU A100 6K, ce qui coûte environ 320 000 $. Le modèle plus récent et plus grand, RAPHAEL, nécessite même 60 jours de GPU A100 60K, ce qui coûte environ 3 080 000 $. De plus, l’entraînement entraîne d’importantes émissions de CO2 qui mettent l’environnement sous pression ; par exemple, l’entraînement de RAPHAEL produit 35 tonnes d’émissions de CO2, soit la même quantité d’émissions qu’une personne produit pendant 7 ans, comme le montre la Figure 1.

Figure 1 : Comparaison des émissions de CO2 et des coûts d’entraînement entre les producteurs de T2I sont présentées ici. On dépense un montant remarquable de 26 000 $ pour la formation de PIXART-α. Nos émissions de CO2 et nos dépenses d’entraînement sont seulement 1,1% et 0,85% inférieures à celles de RAPHAEL.

Un tel prix élevé crée des restrictions majeures pour l’obtention de tels modèles à la fois pour la communauté de recherche et les entreprises, ce qui entrave considérablement les progrès essentiels de la communauté AIGC. Une question cruciale est soulevée concernant ces difficultés : peuvent-ils créer un générateur d’images de haute qualité avec une utilisation de ressources gérable ? Les chercheurs du Huawei Noah’s Ark Lab, de l’Université de technologie de Dalian, de l’HKU et de l’HKUST présentent PIXART-α, qui réduit considérablement les exigences de calcul de l’entraînement tout en maintenant une qualité de génération d’images compétitive par rapport aux générateurs d’images de pointe les plus récents. Ils proposent trois conceptions principales pour y parvenir : Décomposition du plan de formation. Ils décomposent le problème complexe de production de texte vers image en trois sous-tâches simples :

  1. Apprentissage de la distribution des pixels dans les images naturelles
  2. Apprentissage de l’alignement texte-image
  3. Amélioration de l’attrait esthétique des images

Ils suggèrent de réduire considérablement le coût d’apprentissage pour la première sous-tâche en initialisant le modèle T2I avec un modèle à faible coût conditionné par classe. Ils proposent un paradigme de formation comprenant la préformation et le perfectionnement pour les deuxième et troisième sous-tâches : la préformation sur des données de paires texte-image à densité d’informations élevée, suivie du perfectionnement sur des données de qualité esthétique plus élevée, augmentant ainsi l’efficacité de la formation. Un transformateur T2I productif. Ils utilisent des modules de co-attention pour injecter les conditions de texte et simplifier la branche conditionnée par classe qui demande beaucoup de puissance de calcul pour augmenter l’efficacité basée sur le Diffusion Transformer (DiT). De plus, ils présentent une méthode de reparamétrage qui permet au modèle texte-vers-image modifié d’importer directement les paramètres du modèle de condition de classe original.

Ils peuvent ainsi utiliser les connaissances passées d’ImageNet sur la distribution des images naturelles pour fournir au transformateur T2I une initialisation acceptable et accélérer son entraînement. Informations de haute qualité. Leurs recherches révèlent des défauts significatifs dans les ensembles de données existants de paires texte-image, avec LAION comme exemple. Les légendes textuelles souffrent souvent d’un effet à longue traîne grave (c’est-à-dire que de nombreux noms apparaissent avec des fréquences extrêmement faibles) et d’un manque de contenu informatif (c’est-à-dire qu’ils décrivent généralement seulement une partie des objets dans les images). Ces défauts réduisent considérablement l’efficacité de la formation du modèle T2I et nécessitent des millions d’itérations pour obtenir des alignements texte-image fiables. Ils suggèrent un pipeline d’étiquetage automatique utilisant le modèle vision-langage le plus avancé pour produire des légendes sur le modèle SAM pour surmonter ces problèmes.

Le jeu de données SAM présente l’avantage de posséder une grande et diverse collection d’objets, ce qui en fait une source parfaite pour produire des paires texte-image avec une densité d’informations élevée, mieux adaptées à l’apprentissage de l’alignement texte-image. Leurs fonctionnalités astucieuses permettent à leur modèle de formation d’être extrêmement efficace, en utilisant seulement 675 jours de GPU A100 et 26 000 $. La Figure 1 montre comment leur approche utilise un volume de données d’entraînement inférieur (0,2 % vs Imagen) et un temps d’entraînement inférieur (2 % vs RAPHAEL) que Imagen. Leurs dépenses d’entraînement sont d’environ 1 % de celles de RAPHAEL, leur permettant d’économiser environ 3 000 000 $ (26 000 $ vs 3 080 000 $).

Concernant la qualité de génération, leurs essais de recherche utilisateur montrent que PIXART-α offre une meilleure qualité d’image et un alignement sémantique supérieur aux modèles SOTA T2I actuels, Stable Diffusion, etc. De plus, ses performances sur T2I-CompBench démontrent son avantage en matière de contrôle sémantique. Ils anticipent que leurs efforts pour former efficacement les modèles T2I fourniront à la communauté AIGC des informations utiles et aideront davantage d’universitaires indépendants ou d’entreprises à produire leurs propres modèles T2I de haute qualité à des prix plus abordables.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de Stanford introduisent RoboFuME révolutionnant l'apprentissage robotique avec une intervention humaine minimale

Dans de nombreux domaines impliquant l’apprentissage automatique, un paradigme largement couronné de succès pou...

AI

Réinventer la reconnaissance d'image Dévoiler le changement de paradigme du modèle Vision Transformer (ViT) de Google dans le traitement des données visuelles

Dans la reconnaissance d’image, les chercheurs et les développeurs cherchent constamment des approches innovant...

AI

Comment aider les lycéens à se préparer à la montée de l'intelligence artificielle

Un programme estival d'une semaine vise à favoriser une compréhension plus approfondie des approches d'apprentissage ...

AI

Modèles généraux du monde la recherche sur l'intelligence artificielle de la piste de défilé lance un nouvel effort de recherche à long terme.

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/mnlpT-...

AI

Débloquer la créativité Comment l'IA générative et Amazon SageMaker aident les entreprises à produire des créations publicitaires pour des campagnes marketing avec AWS

Les agences de publicité peuvent utiliser l'IA générative et les modèles de base texte-image pour créer des créations...

AI

Découvrez TensorRT-LLM une bibliothèque open-source qui accélère et optimise les performances d'inférence sur les derniers LLMs sur les GPU NVIDIA Tensor Core.

Les modèles linguistiques de grande envergure (LLM) d’intelligence artificielle (IA) peuvent générer du texte, ...