Rencontrez DragonDiffusion une méthode d’édition d’images de haute précision permettant une manipulation de type drag and drop sur des modèles de diffusion.
Découvrez DragonDiffusion, une méthode précise d'édition d'images qui permet la manipulation par glisser-déposer sur des modèles de diffusion.
Les modèles de diffusion de texte vers image à grande échelle (T2I), qui visent à générer des images conditionnées par un texte/des instructions donnés, ont connu un développement rapide grâce à la disponibilité de grandes quantités de données d’entraînement et de capacités informatiques massives. Néanmoins, cette capacité de génération est souvent variée, ce qui rend difficile le développement de consignes appropriées pour générer des images compatibles avec ce que l’utilisateur a en tête et pour effectuer des modifications supplémentaires basées sur des images existantes.
La modification d’image présente des exigences plus variées que la création d’image. Étant donné que l’espace latent est petit et facilement manipulable, les méthodes basées sur les GAN ont trouvé une application généralisée dans l’édition d’images. Les modèles de diffusion sont plus stables et génèrent une sortie de meilleure qualité que les modèles GAN.
Un nouvel article de recherche de l’Université de Pékin et du laboratoire ARC, Tencent PCG, vise à déterminer si le modèle de diffusion peut avoir les mêmes capacités de modification.
- Quel est le niveau de risque de votre projet Open-Source LLM ? Une nouvelle recherche explique les facteurs de risque associés aux LLM Open-Source.
- L’IA aide le gouvernement à interdire les fausses connexions mobiles
- OpenAI présente Super Alignment Paver la voie pour une IA sûre et alignée
La difficulté fondamentale de sa mise en œuvre réside dans un espace latent compact et modifiable. De nombreuses approches de modification d’image basées sur la diffusion ont été développées en se basant sur la similarité entre ces propriétés intermédiaires de texte et d’image. Des études ont découvert une forte ressemblance locale entre les caractéristiques des mots et des objets dans la carte de cross-attention, qui peut être utilisée dans l’édition.
Alors qu’il existe une corrélation robuste entre les caractéristiques du texte et les caractéristiques intermédiaires de l’image dans le processus de génération de diffusion T2I à grande échelle, il existe également une correspondance robuste entre les caractéristiques intermédiaires de l’image. Cette caractéristique a été étudiée dans DIFT, prouvant que la correspondance entre ces caractéristiques est à un degré élevé et permettant la comparaison directe de régions similaires entre les images. En raison de cette grande similitude entre les éléments de l’image, l’équipe utilise cette méthode pour effectuer la modification d’image.
Pour adapter la représentation intermédiaire du modèle de diffusion, les chercheurs ont élaboré une stratégie basée sur un guide de classification appelée DragonDiffusion, qui convertit les signaux de modification en gradients par la perte de correspondance des caractéristiques. L’approche proposée de la diffusion utilise deux groupes de caractéristiques (c’est-à-dire des caractéristiques de guidage et des caractéristiques de génération) à différentes étapes. Grâce à une correspondance robuste des caractéristiques de l’image comme guide, ils révisent et affinent les caractéristiques générées en fonction des caractéristiques de guidage. La correspondance robuste des caractéristiques de l’image aide également à préserver la cohérence du contenu entre l’image modifiée et l’originale.
Dans ce contexte, les chercheurs ont également découvert qu’un autre travail appelé Drag-Diffusion étudie simultanément le même sujet. Il utilise LORA pour que les choses ressemblent à ce qu’elles étaient initialement et améliore le processus d’édition en optimisant une seule étape intermédiaire dans la procédure de diffusion. Au lieu d’ajuster finement ou d’entraîner le modèle, comme avec DragDiffusion, la méthode proposée dans ce travail est basée sur un guide de classification, toutes les signaux d’édition et de cohérence de contenu provenant directement de l’image.
DragonDiffusion dérive tous les signaux de modification de contenu et de préservation de l’image d’origine. Sans aucun ajustement ou entraînement supplémentaire du modèle, la capacité de création T2I dans les modèles de diffusion peut être directement transférée aux applications d’édition d’images.
Des essais approfondis montrent que la DragonDiffusion proposée peut réaliser une large gamme de tâches de modification d’image détaillées, telles que le redimensionnement et le repositionnement d’objets, le changement de leur apparence et la modification de leur contenu.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Rencontrez KITE un cadre d’intelligence artificielle pour la manipulation sémantique utilisant des points clés comme représentation pour l’ancrage visuel et l’inférence d’action précise.
- Le coût caché des problèmes de qualité des données sur le retour sur investissement publicitaire
- Opérations sur les matrices et les vecteurs en régression logistique
- DataHour Réduction des hallucinations de ChatGPT de 80%
- Pic2Word Association d’images à des mots pour la recherche d’images composées sans besoin de formation préalable.
- Les nouveaux robots d’Amazon déploient une révolution de l’automatisation
- L’IA combat le fléau des débris spatiaux