Des chercheurs de Stanford proposent des DDBMs une extension simple et évolutive des modèles de diffusion adaptée aux problèmes de traduction de distribution.

Des chercheurs de Stanford proposent des DDBMs une solution simple et évolutive pour résoudre les problèmes de traduction de distribution.

Les modèles de diffusion ont récemment connu un grand succès et suscité beaucoup d’attention dans la communauté de l’intelligence artificielle. Appartenant à la famille des modèles génératifs, ces modèles peuvent inverser efficacement un processus de diffusion qui transforme les données en bruit, leur permettant ainsi de comprendre les distributions de données complexes. Cette méthode a été une percée dans un certain nombre de tâches génératives, en particulier dans la génération d’images de haute qualité, où elle a surpassé les techniques conventionnelles basées sur les GAN. Le développement de systèmes d’intelligence artificielle de génération de texte vers image moderne a été rendu possible grâce à ces développements de modèles de diffusion.

Les modèles de diffusion ont connu un grand succès dans certains domaines, mais pas dans d’autres. Il peut être difficile de les appliquer à des applications telles que la traduction d’images, où l’objectif est de faire correspondre des paires d’images, car ils présupposent une distribution préexistante de bruit aléatoire. Des méthodes complexes telles que la formation du modèle ou l’ajustement manuel de l’approche d’échantillonnage sont fréquemment utilisées pour résoudre ce problème. Ces techniques ont des bases théoriques faibles et favorisent souvent une correspondance à sens unique, généralement de l’image corrompue à l’image propre, en abandonnant l’idée de cohérence cyclique.

Contrairement au paradigme conventionnel des modèles de diffusion, une équipe de chercheurs a introduit une stratégie nouvelle et unique appelée modèles de diffusion par pont de débruitage (DDBMs). Les ponts de diffusion sont une classe de processus qui interpolent en douceur entre deux distributions appariées spécifiées comme points finaux, et les DDBMs utilisent cette idée. Les DDBMs dérivent le score du pont de diffusion directement à partir des données plutôt qu’à partir de bruit aléatoire. Le score appris guide ensuite le modèle lorsqu’il résout une équation différentielle stochastique pour mapper d’une distribution finale à l’autre.

La capacité des DDBMs à combiner automatiquement plusieurs types de modèles génératifs est l’un de leurs principaux avantages. Ils peuvent facilement combiner des composants des modèles OT-Flow-Matching et basés sur le score, ce qui permet d’adapter les décisions de conception actuelles et les stratégies architecturales pour faire face à leur défi plus général.

L’équipe a appliqué les DDBMs à des ensembles de données difficiles pour leur analyse empirique, tenant compte des modèles au niveau des pixels et de l’espace latent. Les DDBMs surpassent largement les approches de base dans les tâches courantes de traduction d’images, démontrant leur adaptabilité à relever les défis des tâches complexes de modification d’images. Les DDBMs produisent des résultats compétitifs avec les techniques de pointe spécialement créées pour la production d’images, selon les scores FID lorsque l’équipe simplifie le problème en supposant que la distribution source est un bruit aléatoire.

Cela montre à quel point les DDBMs sont adaptables et fiables dans diverses tâches génératives, même lorsqu’ils ne sont pas spécifiquement conçus pour la situation donnée. En conclusion, les modèles de diffusion ont été efficaces dans diverses tâches génératives, mais ils présentent des inconvénients pour des travaux tels que la traduction d’images. Les DDBMs suggérés offrent une solution innovante et évolutive qui intègre la génération basée sur la diffusion et les méthodes de traduction de distribution, améliorant les performances et la polyvalence pour relever les défis liés aux tâches complexes liées à l’image.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

L'avenir de l'ingénierie logicielle transformation avec l'IA générative

Cet article discute de l'émergence de l'IA générative (et des modèles de langage volumineux) et de la manière dont el...

AI

MLCommons présente MedPerf une plateforme open-source pour évaluer les performances des modèles d'IA afin de garantir leur efficacité clinique.

Évaluer l’efficacité des modèles d’IA sur de grands ensembles de données réelles et variées est essentiel...

AI

Éthique de l'IA générative

Avec tout le tumulte entourant l'intelligence artificielle générative (IA), il y a de plus en plus de questions sans ...

AI

Trois façons dont l'IA façonne le DevSecOps

Les développeurs peuvent évaluer la posture de sécurité de leur organisation grâce à ces trois tendances de DevSecOps...

AI

Nouvelles façons de s'inspirer avec l'IA générative dans la recherche

Nous testons de nouvelles façons de commencer quelque chose que vous devez faire, comme créer une image qui peut donn...