Google AI dévoile Imagen Editor et EditBench pour améliorer et évaluer l’Inpainting d’image guidée par le texte.

Google AI unveils Imagen Editor and EditBench to improve and evaluate text-guided image inpainting.

Il y a eu récemment un regain de curiosité pour les convertisseurs de texte en image. Ces modèles génératifs sont étonnamment utiles, bien qu’ils produisent parfois des résultats incorrects dès la première tentative, surtout pour les clients ayant des exigences plus particulières en matière de création ou de design. L’édition d’images guidée par le texte peut améliorer le processus de création d’images en permettant un affinement interactif. Générer des modifications qui sont fidèles aux instructions de texte et compatibles avec les images d’entrée est une difficulté importante. Les chercheurs de Good ont développé Imagen Editor, un modèle de diffusion en cascade pour l’inpainting avec des instructions de texte.

Imagen Editor peut apporter des modifications qui représentent avec précision les instructions de texte en utilisant des détecteurs d’objet pour proposer des masques d’inpainting lors de l’entraînement. Imagen Editor peut capturer même les plus petits détails de l’image d’entrée en conditionnant le pipeline en cascade sur l’image haute résolution d’origine. Pour améliorer l’évaluation qualitative et quantitative, les chercheurs de Google fournissent EditBench, une norme de référence standardisée pour l’inpainting d’images guidé par le texte. EditBench analyse les modifications d’inpainting en examinant les objets, les propriétés et les scènes dans des images réelles et synthétiques. Une évaluation humaine approfondie sur EditBench révèle que le masquage d’objet lors de l’entraînement permet de gains significatifs d’alignement texte-image, avec Imagen Editor se classant en tête contre DALL-E 2 et Stable Diffusion. Collectivement, ces modèles sont plus habiles à rendre les objets qu’à rendre le texte et à manipuler les attributs de matériau/couleur/taille plutôt que les attributs de compte/forme.

Image Editor

Pour modifier des images, utilisez Imagen Editor, un modèle à base de diffusion spécialement optimisé pour Imagen. Il vise à des représentations plus précises des entrées linguistiques, des commandes granulaires et des sorties de haute qualité. Les trois entrées que Imagen Editor utilise pour déterminer les échantillons de sortie sont l’image à modifier, un masque binaire pour identifier la région d’édition et une instruction de texte.

Image Editor permet aux utilisateurs de faire des changements ciblés à certaines régions d’une image en fonction d’un masque et d’un ensemble d’instructions. Le modèle prend en compte les objectifs de l’utilisateur et effectue des ajustements réalistes sur l’image. Image Editor est un éditeur d’images guidé par le texte qui mélange de larges représentations linguistiques avec un contrôle granulaire pour générer des résultats de haute qualité. Imagen Editor est une version améliorée d’Imagen qui utilise un modèle de diffusion en cascade pour affiner l’inpainting d’images guidé par le texte. En utilisant trois encodeurs d’image de convolution de réduction d’échelle, Imagen Editor fournit plus de contexte d’image et de masque pour chaque étape de diffusion.

L’inpainting d’images guidé par le texte fiable d’Image Editor repose sur trois méthodes fondamentales :

Imagen Editor utilise une politique de masquage de détecteur d’objet avec un module de détecteur d’objet pour générer des masques d’objet lors de l’entraînement au lieu des masques de boîte et de trait aléatoires utilisés par les modèles d’inpainting précédents.

Imagen Editor améliore l’édition haute résolution en exigeant une concaténation pleine résolution, canal par canal, de l’image d’entrée et du masque pendant l’entraînement et l’inférence.

Pour influencer les données vers un certain conditionnement, dans ce cas les instructions de texte, les chercheurs utilisent le guidage sans classificateur (CFG) à l’inférence. CFG interpole entre les prédictions des modèles conditionnés et non conditionnés pour obtenir une grande précision dans l’inpainting d’images guidé par le texte.

Obtenir des sorties générées fidèles aux instructions de texte est une difficulté majeure dans l’inpainting d’images guidé par le texte.

EditBench

EditBench utilise 240 photos pour créer une nouvelle norme pour l’inpainting d’images guidé par le texte. Un masque est associé à chaque image qui indique la zone qui sera modifiée lors du processus d’inpainting. Pour aider les utilisateurs à spécifier la modification, les chercheurs donnent trois instructions de texte pour chaque paire image-masque. EditBench est une norme de référence de création de texte en image élaborée à la main qui, comme DrawBench et PartiPrompts, tente de capturer diverses catégories et facteurs de difficulté dans la collecte d’images. Une répartition égale de photos naturelles extraites de bases de données de vision par ordinateur préexistantes et d’images synthétiques produites par des modèles de texte en image inclus dans EditBench est incluse.

La gamme de tailles de masque prise en charge par EditBench est importante, et elle inclut même des grands masques qui s’étendent aux bords des images. Les questions d’EditBench sont structurées pour évaluer la performance des modèles sur une variété de détails fins dans trois catégories :

  1. Attributs (tels que le matériau, la couleur, la forme, la taille et le nombre)
  2. Types d’objets (tels que courants, rares et rendus de texte)
  3. Scènes (telles que d’intérieur, d’extérieur, réalistes ou peintes)

Évaluation

L’alignement texte-image et la qualité de l’image sur EditBench sont soumis à des tests rigoureux par l’équipe de recherche. De plus, ils comparent et contrastent les préférences humaines avec des mesures informatisées. Ils effectuent une analyse de quatre modèles :

  • Éditeur d’image (IM)
  • Éditeur d’image RM (IMRM)
  • Diffusion stable (SD)
  • DALL-E 2 (DL2)

Pour évaluer les avantages du masquage d’objets pendant l’entraînement, les chercheurs comparent Imagen Editor avec Imagen EditorRM. Pour mettre notre travail en perspective avec celui des autres et examiner plus largement les limites de l’état actuel de l’art, nous avons inclus des évaluations de la Diffusion stable et de DALL-E 2.

Pour résumer

Les modèles d’édition d’images fournis font partie d’une famille plus large de modèles génératifs qui permettent des capacités jusqu’alors inaccessibles dans la production de contenu. Cependant, ils comportent également le risque de générer un contenu qui est nuisible aux individus ou à la société dans son ensemble. Il est généralement admis dans la modélisation de langage que les modèles de génération de texte peuvent involontairement refléter et amplifier les préjugés sociaux existants dans leurs données d’entraînement. L’éditeur d’images Imagen Editor est une version améliorée de la restauration d’image guidée par texte d’Imagen. L’éditeur d’images Imagen Editor s’appuie sur une politique de masquage d’objets pour l’entraînement et l’ajout de nouvelles couches de convolution pour l’édition haute résolution. EditBench est une évaluation systématique à grande échelle pour la restauration d’images basée sur des descriptions textuelles. EditBench effectue des tests complets des systèmes de restauration d’attributs, d’objets et de scènes.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Luma AI lance Genie un nouveau modèle d'IA générative en 3D qui vous permet de créer des objets en 3D à partir de texte

Dans la modélisation 3D, la création d’objets 3D réalistes a souvent été une tâche complexe et chronophage. Les...

AI

Graph RAG Libérer la puissance des Graphes de Connaissances avec LLM

Cet article présente ce qu'est Graph RAG et comment il améliore les graphes de connaissances en conjonction avec les ...

AI

Explication du document sur les Graph Attention Networks avec illustration et implémentation PyTorch

Les réseaux neuronaux graphiques (GNN) sont une classe puissante de réseaux neuronaux qui fonctionnent sur des donnée...

AI

Alluxio lance une plateforme de données optimisée par l'IA pour des pipelines ML plus rapides.

Accélère la valeur ajoutée des initiatives en matière d'IA grâce à une infrastructure de données simplifiée qui libèr...

AI

IA générative vs apprentissage machine décoder les distinctions

Explorez le monde des décisions basées sur les données avec l'IA générative et l'apprentissage automatique. Comprenez...

AI

Deci AI dévoile DeciDiffusion 1.0 un modèle de diffusion latente texte-image de 820 millions de paramètres et 3 fois plus rapide que la diffusion stable.

Définir le problème La génération de texte vers image a longtemps été un défi en intelligence artificielle. La capaci...