Des chercheurs de CMU et de Google DeepMind présentent AlignProp une approche d’intelligence artificielle basée sur la rétropopagation directe pour affiner les modèles de diffusion texte-image pour une fonction de récompense souhaitée.
Des chercheurs de CMU et de Google DeepMind dévoilent AlignProp une approche d'intelligence artificielle innovante basée sur la rétropropagation directe pour améliorer les modèles de diffusion texte-image selon une fonction de récompense désirée.
Les modèles de diffusion probabiliste sont devenus la norme établie pour la modélisation générative dans les domaines continus. En tête des modèles de diffusion texte-image se trouve DALLE. Ces modèles ont gagné en notoriété pour leur capacité à générer des images en s’entraînant sur de vastes ensembles de données à l’échelle du web. L’article aborde l’émergence récente de modèles de diffusion texte-image à la pointe de la génération d’images. Ces modèles ont été entraînés sur des ensembles de données texte-image non supervisés à grande échelle ou faiblement supervisés. Cependant, en raison de leur nature non supervisée, il est difficile de contrôler leur comportement dans des tâches ultérieures telles que l’optimisation de la qualité de l’image perçue par l’humain, l’alignement de l’image-texte ou la génération éthique d’images.
Des recherches récentes ont tenté d’affiner les modèles de diffusion en utilisant des techniques d’apprentissage par renforcement, mais cette approche est connue pour sa grande variance dans les estimateurs de gradient. En réponse, l’article présente “AlignProp”, une méthode qui aligne les modèles de diffusion avec les fonctions de récompense des tâches ultérieures par rétropropagation du gradient de récompense pendant le processus de débruitage.
L’approche innovante d’AlignProp atténue les besoins élevés en mémoire qui seraient généralement associés à la rétropropagation dans les modèles texte-image modernes. Elle parvient à cela en affinant les modules de poids d’adaptateur de rang faible et en mettant en œuvre le point de contrôle du gradient.
- L’imagerie médicale échoue sur les peaux noires. Les chercheurs l’ont résolu.
- Le projet Green Light de Google permet de recaler les feux de circulation pour réduire de 30% les arrêts.
- Les entreprises Internet signalent la plus grande opération de déni de service de tous les temps
L’article évalue les performances de AlignProp dans l’affinage des modèles de diffusion pour divers objectifs, notamment l’alignement sémantique de l’image et du texte, les aspects esthétiques, la compressibilité de l’image et la contrôlabilité du nombre d’objets dans les images générées, ainsi que des combinaisons de ces objectifs. Les résultats montrent que AlignProp surpasse les méthodes alternatives en obtenant des récompenses plus élevées en moins d’étapes d’entraînement. De plus, il est connu pour sa simplicité conceptuelle, ce qui en fait un choix simple pour l’optimisation des modèles de diffusion en fonction des fonctions de récompense différentiables d’intérêt.
L’approche AlignProp utilise les gradients obtenus à partir de la fonction de récompense dans le but d’affiner les modèles de diffusion, ce qui permet d’améliorer à la fois l’efficacité de l’échantillonnage et l’efficacité computationnelle. Les expériences menées démontrent de manière cohérente l’efficacité de AlignProp dans l’optimisation d’un large éventail de fonctions de récompense, même pour des tâches difficiles à définir uniquement par des instructions. À l’avenir, les directions de recherche potentielles pourraient être d’étendre ces principes aux modèles de langage basés sur la diffusion, dans le but d’améliorer leur alignement avec les retours humains.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Exploration des technologies de travail à distance tendances et innovations
- Brillance du diamant au MIT les répéteurs quantiques révolutionnent les réseaux
- Un outil Python pour récupérer les données de pollution de l’air à partir des API Google Maps Air Quality.
- Identification des points chauds thématiques dans les zones urbaines
- Considérations pratiques dans la conception d’application RAG
- Émissions de carbone d’une équipe d’ingénierie ML
- Examiner l’impact du boom de l’IA sur les services cloud