Des chercheurs de KAIST présentent FaceCLIPNeRF un pipeline de manipulation textuelle d’un visage en 3D utilisant NeRF déformable.
Des chercheurs de KAIST présentent FaceCLIPNeRF, un pipeline de manipulation textuelle d'un visage en 3D utilisant NeRF déformable.
Un composant crucial des améliorations du contenu numérique humain en 3D est la capacité à manipuler facilement la représentation du visage en 3D. Bien que Neural Radiance Field (NeRF) ait fait des progrès significatifs dans la reconstruction de scènes en 3D, bon nombre de ses techniques de manipulation se concentrent sur la géométrie rigide ou les manipulations de couleur, qui doivent être améliorées pour les emplois nécessitant un contrôle précis des expressions faciales. Bien qu’une étude récente ait présenté une approche d’édition du visage contrôlée régionalement, elle nécessite une procédure laborieuse de collecte de masques annotés par l’utilisateur de différentes parties du visage à partir de trames d’entraînement sélectionnées, suivie d’un contrôle des attributs humains pour accomplir une modification souhaitée.
Les techniques de représentation implicite spécifiques au visage codent les expressions faciales observées avec une grande fidélité en utilisant les paramètres des modèles de visage morphable comme priors. Leurs manipulations manuelles nécessitent cependant de grands ensembles d’entraînement qui couvrent une gamme d’expressions faciales et comprennent environ 6000 trames. Cela rend à la fois la collecte de données et les processus de manipulation laborieux. À la place, des chercheurs de KAIST et de Scatter Lab ont développé une méthode qui s’entraîne sur une vidéo portrait dynamique avec environ 300 trames d’entraînement comprenant quelques types différents d’instances de déformation faciale pour permettre la modification basée sur le texte, comme le montre la figure 1.
Leur approche apprend et isole les déformations observées à partir d’un espace canonique en utilisant HyperNeRF avant de contrôler une déformation faciale. En particulier, un réseau scénique implicite conditionnel avec un code latent commun et des codes latents de déformation par trame sont enseignés sur l’ensemble des trames d’entraînement. Leur découverte fondamentale consiste à utiliser de nombreux codes latents spatialement variables pour exprimer des déformations de scène pour des tâches de manipulation. L’épiphanie découle des inconvénients d’appliquer naïvement les formulations HyperNeRF aux problèmes de manipulation, à savoir rechercher un seul code latent qui encode une distorsion faciale souhaitée.
- Naviguer dans le dédale de l’adoption de l’IA
- Introduction à la science des données Guide du débutant
- Découverte de produits alimentée par LLM un bond au-delà de la recherche hybride
Par exemple, un seul code latent ne peut pas transmettre une expression faciale qui nécessite un mélange de déformations locales observées dans de nombreux cas. Dans leur étude, ils identifient ce problème comme un “problème d’attribut local lié” et y remédient en fournissant une scène modifiée avec des codes latents spatialement variables. Pour ce faire, ils regroupent d’abord toutes les déformations observées en une collection de codes d’ancrage, qu’ils enseignent ensuite à un MLP pour les combiner afin de produire de nombreux codes latents conditionnels à la position. Ensuite, en améliorant les images produites des codes latents pour qu’elles soient proches d’un texte cible dans l’espace d’incorporation CLIP, la réflectivité des codes latents sur les caractéristiques visuelles d’un texte cible est réalisée. En conclusion, leur travail apporte les contributions suivantes:
• Conception d’un réseau de manipulation qui apprend à représenter une scène avec des codes latents spatialement variables
• Proposition d’un pipeline de manipulation basé sur le texte d’un visage reconstruit avec NeRF
• À leur connaissance, la première personne à manipuler du texte sur un visage qui a été reconstruit par NeRF.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Du Chaos à l’Ordre Exploiter le regroupement de données pour une prise de décision améliorée
- A l’intérieur de SDXL 1.0 AI de stabilité, nouveau modèle super Texte-vers-Image
- Des chercheurs mettent en évidence les failles des contrôles de sécurité de ChatGPT et d’autres Chatbots
- Une nouvelle ère dans la robotique rotation d’objet basée sur le toucher
- Avancée de la reconnaissance des actions humaines en réalité virtuelle Cet article sur l’IA présente LKA-GCN avec une attention de noyau large sur le squelette pour des performances inégalées.
- Introduction à l’apprentissage statistique, édition Python livre gratuit
- Guide complet des fonctions financières dans Excel