Rencontrez DragonDiffusion une méthode d’édition d’images de haute précision permettant une manipulation de type drag and drop sur des modèles de diffusion.

Découvrez DragonDiffusion, une méthode précise d'édition d'images qui permet la manipulation par glisser-déposer sur des modèles de diffusion.

Les modèles de diffusion de texte vers image à grande échelle (T2I), qui visent à générer des images conditionnées par un texte/des instructions donnés, ont connu un développement rapide grâce à la disponibilité de grandes quantités de données d’entraînement et de capacités informatiques massives. Néanmoins, cette capacité de génération est souvent variée, ce qui rend difficile le développement de consignes appropriées pour générer des images compatibles avec ce que l’utilisateur a en tête et pour effectuer des modifications supplémentaires basées sur des images existantes.

La modification d’image présente des exigences plus variées que la création d’image. Étant donné que l’espace latent est petit et facilement manipulable, les méthodes basées sur les GAN ont trouvé une application généralisée dans l’édition d’images. Les modèles de diffusion sont plus stables et génèrent une sortie de meilleure qualité que les modèles GAN.

Un nouvel article de recherche de l’Université de Pékin et du laboratoire ARC, Tencent PCG, vise à déterminer si le modèle de diffusion peut avoir les mêmes capacités de modification.

La difficulté fondamentale de sa mise en œuvre réside dans un espace latent compact et modifiable. De nombreuses approches de modification d’image basées sur la diffusion ont été développées en se basant sur la similarité entre ces propriétés intermédiaires de texte et d’image. Des études ont découvert une forte ressemblance locale entre les caractéristiques des mots et des objets dans la carte de cross-attention, qui peut être utilisée dans l’édition.

Alors qu’il existe une corrélation robuste entre les caractéristiques du texte et les caractéristiques intermédiaires de l’image dans le processus de génération de diffusion T2I à grande échelle, il existe également une correspondance robuste entre les caractéristiques intermédiaires de l’image. Cette caractéristique a été étudiée dans DIFT, prouvant que la correspondance entre ces caractéristiques est à un degré élevé et permettant la comparaison directe de régions similaires entre les images. En raison de cette grande similitude entre les éléments de l’image, l’équipe utilise cette méthode pour effectuer la modification d’image.

Pour adapter la représentation intermédiaire du modèle de diffusion, les chercheurs ont élaboré une stratégie basée sur un guide de classification appelée DragonDiffusion, qui convertit les signaux de modification en gradients par la perte de correspondance des caractéristiques. L’approche proposée de la diffusion utilise deux groupes de caractéristiques (c’est-à-dire des caractéristiques de guidage et des caractéristiques de génération) à différentes étapes. Grâce à une correspondance robuste des caractéristiques de l’image comme guide, ils révisent et affinent les caractéristiques générées en fonction des caractéristiques de guidage. La correspondance robuste des caractéristiques de l’image aide également à préserver la cohérence du contenu entre l’image modifiée et l’originale.

Dans ce contexte, les chercheurs ont également découvert qu’un autre travail appelé Drag-Diffusion étudie simultanément le même sujet. Il utilise LORA pour que les choses ressemblent à ce qu’elles étaient initialement et améliore le processus d’édition en optimisant une seule étape intermédiaire dans la procédure de diffusion. Au lieu d’ajuster finement ou d’entraîner le modèle, comme avec DragDiffusion, la méthode proposée dans ce travail est basée sur un guide de classification, toutes les signaux d’édition et de cohérence de contenu provenant directement de l’image.

DragonDiffusion dérive tous les signaux de modification de contenu et de préservation de l’image d’origine. Sans aucun ajustement ou entraînement supplémentaire du modèle, la capacité de création T2I dans les modèles de diffusion peut être directement transférée aux applications d’édition d’images.

Des essais approfondis montrent que la DragonDiffusion proposée peut réaliser une large gamme de tâches de modification d’image détaillées, telles que le redimensionnement et le repositionnement d’objets, le changement de leur apparence et la modification de leur contenu.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Top 10 extensions de VS Code pour augmenter la productivité de 10x

Path Intellisense Que ce soit en utilisant C#, VB.NET ou F#, vous pouvez bénéficier de Path Intellisense grâce à une ...

AI

Meilleurs générateurs d'art basés sur l'intelligence artificielle AI en 2023

Rêve par Wombo Rêve By Wombo, contrairement à d’autres générateurs d’images AI, est capable de synthèse d...

Science des données

Apprentissage pour faire croître des modèles de machine learning

La nouvelle technique LiGO accélère l'entraînement des grands modèles d'apprentissage automatique, réduisant ainsi le...

AI

Comprendre la justice virale

L'auteure et chercheuse en études africaines américaines, Ruha Benjamin, exhorte le personnel des bibliothèques du MI...

AI

Débloquer le pouvoir du contexte avec Google AI une confrontation entre prefixLM et causalLM dans l'apprentissage en contexte

La guerre de Troie est célèbre, où Achille a gravé son nom dans l’histoire en vainquant le prince Hector une fo...