Des chercheurs de Stanford proposent des DDBMs une extension simple et évolutive des modèles de diffusion adaptée aux problèmes de traduction de distribution.

Des chercheurs de Stanford proposent des DDBMs une solution simple et évolutive pour résoudre les problèmes de traduction de distribution.

Les modèles de diffusion ont récemment connu un grand succès et suscité beaucoup d’attention dans la communauté de l’intelligence artificielle. Appartenant à la famille des modèles génératifs, ces modèles peuvent inverser efficacement un processus de diffusion qui transforme les données en bruit, leur permettant ainsi de comprendre les distributions de données complexes. Cette méthode a été une percée dans un certain nombre de tâches génératives, en particulier dans la génération d’images de haute qualité, où elle a surpassé les techniques conventionnelles basées sur les GAN. Le développement de systèmes d’intelligence artificielle de génération de texte vers image moderne a été rendu possible grâce à ces développements de modèles de diffusion.

Les modèles de diffusion ont connu un grand succès dans certains domaines, mais pas dans d’autres. Il peut être difficile de les appliquer à des applications telles que la traduction d’images, où l’objectif est de faire correspondre des paires d’images, car ils présupposent une distribution préexistante de bruit aléatoire. Des méthodes complexes telles que la formation du modèle ou l’ajustement manuel de l’approche d’échantillonnage sont fréquemment utilisées pour résoudre ce problème. Ces techniques ont des bases théoriques faibles et favorisent souvent une correspondance à sens unique, généralement de l’image corrompue à l’image propre, en abandonnant l’idée de cohérence cyclique.

Contrairement au paradigme conventionnel des modèles de diffusion, une équipe de chercheurs a introduit une stratégie nouvelle et unique appelée modèles de diffusion par pont de débruitage (DDBMs). Les ponts de diffusion sont une classe de processus qui interpolent en douceur entre deux distributions appariées spécifiées comme points finaux, et les DDBMs utilisent cette idée. Les DDBMs dérivent le score du pont de diffusion directement à partir des données plutôt qu’à partir de bruit aléatoire. Le score appris guide ensuite le modèle lorsqu’il résout une équation différentielle stochastique pour mapper d’une distribution finale à l’autre.

La capacité des DDBMs à combiner automatiquement plusieurs types de modèles génératifs est l’un de leurs principaux avantages. Ils peuvent facilement combiner des composants des modèles OT-Flow-Matching et basés sur le score, ce qui permet d’adapter les décisions de conception actuelles et les stratégies architecturales pour faire face à leur défi plus général.

L’équipe a appliqué les DDBMs à des ensembles de données difficiles pour leur analyse empirique, tenant compte des modèles au niveau des pixels et de l’espace latent. Les DDBMs surpassent largement les approches de base dans les tâches courantes de traduction d’images, démontrant leur adaptabilité à relever les défis des tâches complexes de modification d’images. Les DDBMs produisent des résultats compétitifs avec les techniques de pointe spécialement créées pour la production d’images, selon les scores FID lorsque l’équipe simplifie le problème en supposant que la distribution source est un bruit aléatoire.

Cela montre à quel point les DDBMs sont adaptables et fiables dans diverses tâches génératives, même lorsqu’ils ne sont pas spécifiquement conçus pour la situation donnée. En conclusion, les modèles de diffusion ont été efficaces dans diverses tâches génératives, mais ils présentent des inconvénients pour des travaux tels que la traduction d’images. Les DDBMs suggérés offrent une solution innovante et évolutive qui intègre la génération basée sur la diffusion et les méthodes de traduction de distribution, améliorant les performances et la polyvalence pour relever les défis liés aux tâches complexes liées à l’image.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Recherche en IA

Des chercheurs de Princeton présentent MeZO un optimiseur du zéroème ordre efficace en mémoire qui peut affiner les modèles de langage larges (LLM)

Les modèles de langage volumineux (LLMs) avancent rapidement avec le grand succès de l’Intelligence Artificiell...

AI

Une introduction pratique aux LLM

Ceci est le premier article d'une série sur l'utilisation des grands modèles de langage (LLM) en pratique. Ici, je do...

AI

Le Guide Ultime de nnU-Net

Plongez profondément dans notre guide complet sur nnU-Net, l'outil de pointe pour la segmentation d'images. Acquérez ...

Informatique

L'Europe avance sur la réglementation de l'IA, remettant en question le pouvoir des géants de la technologie.

Bruxelles a lancé un nouveau défi en matière de concurrence contre Google le même jour où les législateurs européens ...

AI

Créez des résumés d'enregistrements à l'aide de l'IA générative avec Amazon Bedrock et Amazon Transcribe

Les notes de réunion sont une partie cruciale de la collaboration, mais elles sont souvent négligées. Entre la direct...

AI

Découvrez MMMU un nouveau référentiel AI pour les défis multimodaux de niveau expert, ouvrant la voie à l'intelligence artificielle générale.

Les avancées de la pré-formation multimodale abordent diverses tâches, exemplifiées par des modèles tels que LXMERT, ...