Des chercheurs de Stanford proposent des DDBMs une extension simple et évolutive des modèles de diffusion adaptée aux problèmes de traduction de distribution.
Des chercheurs de Stanford proposent des DDBMs une solution simple et évolutive pour résoudre les problèmes de traduction de distribution.
Les modèles de diffusion ont récemment connu un grand succès et suscité beaucoup d’attention dans la communauté de l’intelligence artificielle. Appartenant à la famille des modèles génératifs, ces modèles peuvent inverser efficacement un processus de diffusion qui transforme les données en bruit, leur permettant ainsi de comprendre les distributions de données complexes. Cette méthode a été une percée dans un certain nombre de tâches génératives, en particulier dans la génération d’images de haute qualité, où elle a surpassé les techniques conventionnelles basées sur les GAN. Le développement de systèmes d’intelligence artificielle de génération de texte vers image moderne a été rendu possible grâce à ces développements de modèles de diffusion.
Les modèles de diffusion ont connu un grand succès dans certains domaines, mais pas dans d’autres. Il peut être difficile de les appliquer à des applications telles que la traduction d’images, où l’objectif est de faire correspondre des paires d’images, car ils présupposent une distribution préexistante de bruit aléatoire. Des méthodes complexes telles que la formation du modèle ou l’ajustement manuel de l’approche d’échantillonnage sont fréquemment utilisées pour résoudre ce problème. Ces techniques ont des bases théoriques faibles et favorisent souvent une correspondance à sens unique, généralement de l’image corrompue à l’image propre, en abandonnant l’idée de cohérence cyclique.
Contrairement au paradigme conventionnel des modèles de diffusion, une équipe de chercheurs a introduit une stratégie nouvelle et unique appelée modèles de diffusion par pont de débruitage (DDBMs). Les ponts de diffusion sont une classe de processus qui interpolent en douceur entre deux distributions appariées spécifiées comme points finaux, et les DDBMs utilisent cette idée. Les DDBMs dérivent le score du pont de diffusion directement à partir des données plutôt qu’à partir de bruit aléatoire. Le score appris guide ensuite le modèle lorsqu’il résout une équation différentielle stochastique pour mapper d’une distribution finale à l’autre.
- Leadership basée sur les données Construire une organisation axée sur les données avec Srikanth Velamakanni
- Cette recherche en intelligence artificielle propose Kosmos-G un modèle d’intelligence artificielle qui réalise une génération d’images de haute fidélité sans apprentissage à partir d’une entrée de vision-langage généralisée en exploitant la propriété
- Cette recherche en IA dévoile ‘Kandinsky1’ une nouvelle approche dans la génération de texte vers image par diffusion latente, avec des scores FID exceptionnels sur COCO-30K.
La capacité des DDBMs à combiner automatiquement plusieurs types de modèles génératifs est l’un de leurs principaux avantages. Ils peuvent facilement combiner des composants des modèles OT-Flow-Matching et basés sur le score, ce qui permet d’adapter les décisions de conception actuelles et les stratégies architecturales pour faire face à leur défi plus général.
L’équipe a appliqué les DDBMs à des ensembles de données difficiles pour leur analyse empirique, tenant compte des modèles au niveau des pixels et de l’espace latent. Les DDBMs surpassent largement les approches de base dans les tâches courantes de traduction d’images, démontrant leur adaptabilité à relever les défis des tâches complexes de modification d’images. Les DDBMs produisent des résultats compétitifs avec les techniques de pointe spécialement créées pour la production d’images, selon les scores FID lorsque l’équipe simplifie le problème en supposant que la distribution source est un bruit aléatoire.
Cela montre à quel point les DDBMs sont adaptables et fiables dans diverses tâches génératives, même lorsqu’ils ne sont pas spécifiquement conçus pour la situation donnée. En conclusion, les modèles de diffusion ont été efficaces dans diverses tâches génératives, mais ils présentent des inconvénients pour des travaux tels que la traduction d’images. Les DDBMs suggérés offrent une solution innovante et évolutive qui intègre la génération basée sur la diffusion et les méthodes de traduction de distribution, améliorant les performances et la polyvalence pour relever les défis liés aux tâches complexes liées à l’image.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- GPT-4V(ision) d’OpenAI une percée dans la frontière multimodale de l’IA
- LangChain 101 Partie 2d. Ajuster finement les modèles de langage avec les commentaires humains
- Un guide complet sur ZenML pour les débutants simplifiant MLOps.
- Équité dans l’apprentissage automatique (Partie 1)
- Se concentrez sur les éviers et où les cacher un parcours visuel pour la mise en œuvre du streaming LLM
- Principaux articles importants en vision par ordinateur de la semaine du 2/10 au 8/10
- VoAGI News, 11 octobre 3 projets de science des données pour décrocher ce travail • 7 étapes pour maîtriser le NLP