Découvrez TR0N une méthode simple et efficace pour ajouter n’importe quel type de conditionnement aux modèles génératifs pré-entraînés.

Découvrez TR0N, une méthode simple et efficace pour ajouter n'importe quel type de conditionnement aux modèles génératifs pré-entraînés.

Récemment, les grands modèles d’apprentissage automatique ont excellé dans une variété de tâches. Cependant, l’entraînement de tels modèles nécessite beaucoup de puissance informatique. Il est donc crucial d’utiliser correctement et efficacement les modèles pré-entraînés actuels de taille importante. Cependant, le défi de fusionner de manière plug-and-play les capacités de différents modèles reste à résoudre. Les mécanismes pour effectuer cette tâche devraient de préférence être modulaires et neutres vis-à-vis du modèle, permettant un simple remplacement des composants du modèle (par exemple, remplacer CLIP par un nouveau modèle texte/image de pointe avec un VAE).

Dans ce travail, des chercheurs de Layer 6 AI, de l’Université de Toronto et de l’Institut Vector étudient la génération conditionnelle en mélangeant des modèles préalablement formés. Étant donné une variable de conditionnement c, les modèles générateurs conditionnels cherchent à apprendre une distribution de données conditionnelle. Ils sont normalement formés à partir de zéro sur des appariements de données avec c correspondant, tels que des images x avec des étiquettes de classe correspondantes ou des incitations textuelles fournies via un modèle de langage c. Ils souhaitent transformer tout modèle génératif d’avant en un modèle conditionnel en utilisant un modèle G qui convertit les variables latentes z échantillonnées à partir d’une distribution antérieure p(z) en échantillons de données x = G(z). Pour ce faire, ils fournissent TR0N, un cadre étendu pour entraîner des modèles génératifs antérieurs non conditionnels de manière conditionnelle.

TR0N suppose l’accès à un modèle auxiliaire formé f, un classificateur ou un encodeur CLIP pour mapper chaque point de données x à sa condition associée c = f(x). TR0N attend également l’accès à une fonction E(z, c) qui attribue des valeurs inférieures aux latents z pour lesquels G(z) “satisfait mieux” un critère c. En utilisant cette fonction, TR0N minimise le gradient de E(z, c) par rapport à z en T étapes pour un c donné afin de localiser des latents qui, lorsqu’ils sont appliqués à G, fourniraient les échantillons de données conditionnels nécessaires. Cependant, ils démontrent que l’optimisation initiale de E de manière naïve pourrait être bien meilleure. Dans cette optique, TR0N commence par étudier un réseau qu’ils utilisent pour optimiser plus efficacement le processus d’optimisation.

Étant donné qu’il “traduit” d’une condition c à un latent z correspondant tel que E(z, c) soit minimal, ce réseau est appelé réseau traducteur car il amortit essentiellement le problème d’optimisation. Le réseau de traduction est entraîné sans ajuster G ou utiliser un ensemble de données prédéfini, ce qui est important. TR0N est une approche à zéro tir, avec un réseau de traduction léger comme seule partie entraînable. La capacité de TR0N à utiliser n’importe quel G et n’importe quel f facilite également la mise à niveau de l’une de ces composantes chaque fois qu’une version plus récente de pointe devient disponible. Cela est important car cela évite l’entraînement extrêmement coûteux d’un modèle conditionnel à partir de zéro.

Figure 1

Dans le panneau de gauche de la Figure 1, ils décrivent comment former le réseau traducteur. Une fois que le réseau de traduction a été formé, l’optimisation de E est lancée en utilisant sa sortie. Par rapport à une initialisation naïve, cela permet de retrouver toute performance perdue en raison de l’écart d’amortissement, produisant de meilleurs optima locaux et une convergence plus rapide. Il est possible d’interpréter TR0N comme un échantillonnage avec une dynamique de Langevin en utilisant une stratégie d’initialisation efficace car TR0N est une méthode stochastique. Le réseau de traduction est une distribution conditionnelle q(z|c) qui attribue une densité élevée aux latents z de sorte que E(z, c) soit petit. Ils ajoutent également du bruit lors de l’optimisation du gradient de E. Dans le panneau de droite de la Figure 1, ils montrent comment échantillonner avec TR0N.

Ils apportent trois contributions : (i) l’introduction de réseaux traducteurs et une paramétrisation particulièrement efficace de ceux-ci, permettant différentes façons d’initialiser la dynamique de Langevin ; (ii) la formulation de TR0N comme un cadre très général, tandis que les travaux connexes précédents se concentrent principalement sur une seule tâche avec des choix spécifiques de G et f ; et (iii) la démonstration empirique que TR0N surpasse les alternatives concurrentes dans des tâches de qualité d’image et de faisabilité computationnelle, tout en produisant des échantillons diversifiés. Une démonstration est disponible sur HuggingFace.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Calcul de prochaine génération NVIDIA et AMD proposent des stations de travail puissantes pour accélérer l'IA, le rendu et la simulation.

Pour permettre aux professionnels du monde entier de créer et d’exécuter des applications d’IA directemen...

AI

FedML et Theta dévoilent un supercluster IA décentralisé alimentant l'IA générative et la recommandation de contenu.

Dans une collaboration révolutionnaire, FedML et Theta Network s’unissent pour lancer un supercluster d’I...

AI

Prenez les commandes NVIDIA NeMo SteerLM permet aux entreprises de personnaliser les réponses d'un modèle lors de l'inférence

Les développeurs disposent désormais d’un nouveau volant assisté par IA pour les aider à garder la route tout e...

AI

Les modèles de langage profonds s'améliorent de plus en plus en apprenant à prédire le mot suivant à partir de son contexte Est-ce vraiment ce que fait le cerveau humain?

L’apprentissage profond a réalisé des avancées significatives dans la génération, la traduction et l’achè...