Déverrouiller la précision dans l’édition d’images guidées par le texte et de scènes 3D Découvrez ‘Watch Your Steps
Déverrouillage de la précision dans l'édition d'images guidées par le texte et les scènes 3D. Découvrez 'Watch Your Steps'.
Les champs de rayonnement neuronaux (CRN) sont de plus en plus populaires grâce à leur capacité à créer des visualisations précises et intuitives. Cela a conduit à l’idée de modifier les CRN pour changer les images. Les modèles de diffusion du débruitage ont également été capables de produire des images remarquablement bonnes à partir de descriptions textuelles et sont devenus populaires pour l’édition d’images en raison de leur efficacité. Malgré la promesse des techniques de modification d’images basées sur la diffusion, une méthodologie automatisée permettant d’identifier les zones nécessitant une modification fait cruellement défaut. Les méthodes actuellement utilisées reposent soit sur des masques fournis par l’utilisateur, soit sur l’utilisation des informations globales trouvées dans les entrées bruitées comme point de départ, soit sur les données d’entrée pour déterminer comment le processus de débruitage sera effectué.
Cependant, ces approches ont généralement tendance à trop modifier. Même l’application IN2N pour l’édition de CRN rencontre des problèmes avec une édition excessive de la scène. Tout comme IP2P, DiffEdit utilise des prédictions de bruit guidées par des légendes pour localiser les zones d’édition, bien que cette méthode soit plus lente et moins efficace. Une équipe de chercheurs a présenté une approche unique pour identifier et localiser la zone précise à l’intérieur d’une image qui doit être modifiée en fonction d’une instruction textuelle particulière. Connue sous le nom de Watch Your Steps, cette approche prend en charge l’édition d’images et de scènes locales par des instructions textuelles.
L’équipe a découvert une distinction clé entre les prédictions faites par IP2P avec et sans l’instruction en utilisant les capacités d’InstructPix2Pix (IP2P). Cette différence a été appelée carte de pertinence. La carte de pertinence sert essentiellement de carte routière, illustrant l’importance de changer des pixels spécifiques pour atteindre les modifications souhaitées. Elle sert de guide pour effectuer des changements, en veillant à ce que seuls les pixels nécessaires soient modifiés, laissant les autres intacts.
- Meta publie Code Llama Le dernier outil d’IA pour la programmation
- La mode avant-gardiste avec l’IA générative
- Prompt Engineering Comment tromper l’IA pour résoudre vos problèmes
L’équipe a également partagé que les cartes de pertinence sont utiles pour bien plus que la simple édition d’images de base, car elles améliorent même la précision des modifications guidées par texte dans le contexte de scènes 3D, en particulier celles modélisées par des champs de radiance neuronaux. Pour ce faire, en utilisant les cartes de pertinence liées à différentes vues d’entraînement, un champ de pertinence a été entraîné. La région 3D qui doit être modifiée pour réaliser les modifications souhaitées a été efficacement définie par ce champ de pertinence, et donc, le processus consiste à rendre les cartes de pertinence à partir du champ de pertinence établi pour guider la mise à jour itérative des vues d’entraînement.
Lors de l’évaluation, il a été constaté que cette méthode a atteint un niveau de performance inégalé pour les tâches d’édition de champs de radiance neuronaux (CRN) ainsi que pour l’édition d’images. Cela a démontré la valeur et l’excellence de cette approche pour surmonter les difficultés liées à la manipulation d’images et de scènes.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cet article sur l’IA de l’Université technologique de Nanyang à Singapour présente MeVIS une référence à grande échelle pour la segmentation vidéo avec des expressions de mouvement.
- Comment encoder les caractéristiques temporelles périodiques
- Introduction et mise en œuvre des réseaux siamois
- Google lance MediaPipe pour Raspberry Pi avec un SDK Python facile à utiliser pour l’apprentissage automatique sur l’appareil
- Soutenir la durabilité, la santé numérique et l’avenir du travail
- Comment aider les lycéens à se préparer à la montée de l’intelligence artificielle
- Annonce de la prévisualisation d’Amazon SageMaker Profiler suivez et visualisez des données détaillées sur les performances matérielles de vos charges de travail d’entraînement de modèle.