Déverrouiller la précision dans l’édition d’images guidées par le texte et de scènes 3D Découvrez ‘Watch Your Steps

Déverrouillage de la précision dans l'édition d'images guidées par le texte et les scènes 3D. Découvrez 'Watch Your Steps'.

Les champs de rayonnement neuronaux (CRN) sont de plus en plus populaires grâce à leur capacité à créer des visualisations précises et intuitives. Cela a conduit à l’idée de modifier les CRN pour changer les images. Les modèles de diffusion du débruitage ont également été capables de produire des images remarquablement bonnes à partir de descriptions textuelles et sont devenus populaires pour l’édition d’images en raison de leur efficacité. Malgré la promesse des techniques de modification d’images basées sur la diffusion, une méthodologie automatisée permettant d’identifier les zones nécessitant une modification fait cruellement défaut. Les méthodes actuellement utilisées reposent soit sur des masques fournis par l’utilisateur, soit sur l’utilisation des informations globales trouvées dans les entrées bruitées comme point de départ, soit sur les données d’entrée pour déterminer comment le processus de débruitage sera effectué.

Cependant, ces approches ont généralement tendance à trop modifier. Même l’application IN2N pour l’édition de CRN rencontre des problèmes avec une édition excessive de la scène. Tout comme IP2P, DiffEdit utilise des prédictions de bruit guidées par des légendes pour localiser les zones d’édition, bien que cette méthode soit plus lente et moins efficace. Une équipe de chercheurs a présenté une approche unique pour identifier et localiser la zone précise à l’intérieur d’une image qui doit être modifiée en fonction d’une instruction textuelle particulière. Connue sous le nom de Watch Your Steps, cette approche prend en charge l’édition d’images et de scènes locales par des instructions textuelles.

L’équipe a découvert une distinction clé entre les prédictions faites par IP2P avec et sans l’instruction en utilisant les capacités d’InstructPix2Pix (IP2P). Cette différence a été appelée carte de pertinence. La carte de pertinence sert essentiellement de carte routière, illustrant l’importance de changer des pixels spécifiques pour atteindre les modifications souhaitées. Elle sert de guide pour effectuer des changements, en veillant à ce que seuls les pixels nécessaires soient modifiés, laissant les autres intacts.

L’équipe a également partagé que les cartes de pertinence sont utiles pour bien plus que la simple édition d’images de base, car elles améliorent même la précision des modifications guidées par texte dans le contexte de scènes 3D, en particulier celles modélisées par des champs de radiance neuronaux. Pour ce faire, en utilisant les cartes de pertinence liées à différentes vues d’entraînement, un champ de pertinence a été entraîné. La région 3D qui doit être modifiée pour réaliser les modifications souhaitées a été efficacement définie par ce champ de pertinence, et donc, le processus consiste à rendre les cartes de pertinence à partir du champ de pertinence établi pour guider la mise à jour itérative des vues d’entraînement.

Lors de l’évaluation, il a été constaté que cette méthode a atteint un niveau de performance inégalé pour les tâches d’édition de champs de radiance neuronaux (CRN) ainsi que pour l’édition d’images. Cela a démontré la valeur et l’excellence de cette approche pour surmonter les difficultés liées à la manipulation d’images et de scènes.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Science des données

Comment créer des tests de données de valeur

La qualité des données a été largement discutée au cours de l'année écoulée. L'adoption croissante des contrats de do...

Science des données

10 Plugins ChatGPT pour la feuille de triche de la science des données

Pour un aperçu de ce que nous croyons être les 10 meilleurs plugins ChatGPT pour la science des données, consultez no...

AI

Mieux que GPT-4 pour les requêtes SQL NSQL (Entièrement Open Source)

Levez la main si vous avez essayé d'utiliser ChatGPT ou l'un des autres LLM pour générer des requêtes SQL. Je l'ai fa...

Science des données

12 Modèles Mentaux pour la Science des Données

Dans le domaine en constante évolution de la science des données, les compétences techniques brutes pour manipuler et...

AI

Les mathématiques dans le monde réel tests, simulations et plus encore

Les meilleurs écrits sur les mathématiques et les statistiques réalisent un exploit difficile ils prennent des concep...

AI

Retour Utilisateur - La pièce manquante de la pile de surveillance de l'apprentissage automatique

Avez-vous déjà passé des mois, et qui sait combien de $$$, à mettre en œuvre un modèle d'IA, pour constater que perso...