Des chercheurs de KAIST présentent FaceCLIPNeRF un pipeline de manipulation textuelle d’un visage en 3D utilisant NeRF déformable.

Des chercheurs de KAIST présentent FaceCLIPNeRF, un pipeline de manipulation textuelle d'un visage en 3D utilisant NeRF déformable.

Un composant crucial des améliorations du contenu numérique humain en 3D est la capacité à manipuler facilement la représentation du visage en 3D. Bien que Neural Radiance Field (NeRF) ait fait des progrès significatifs dans la reconstruction de scènes en 3D, bon nombre de ses techniques de manipulation se concentrent sur la géométrie rigide ou les manipulations de couleur, qui doivent être améliorées pour les emplois nécessitant un contrôle précis des expressions faciales. Bien qu’une étude récente ait présenté une approche d’édition du visage contrôlée régionalement, elle nécessite une procédure laborieuse de collecte de masques annotés par l’utilisateur de différentes parties du visage à partir de trames d’entraînement sélectionnées, suivie d’un contrôle des attributs humains pour accomplir une modification souhaitée.

Les techniques de représentation implicite spécifiques au visage codent les expressions faciales observées avec une grande fidélité en utilisant les paramètres des modèles de visage morphable comme priors. Leurs manipulations manuelles nécessitent cependant de grands ensembles d’entraînement qui couvrent une gamme d’expressions faciales et comprennent environ 6000 trames. Cela rend à la fois la collecte de données et les processus de manipulation laborieux. À la place, des chercheurs de KAIST et de Scatter Lab ont développé une méthode qui s’entraîne sur une vidéo portrait dynamique avec environ 300 trames d’entraînement comprenant quelques types différents d’instances de déformation faciale pour permettre la modification basée sur le texte, comme le montre la figure 1.

Figure 1

Leur approche apprend et isole les déformations observées à partir d’un espace canonique en utilisant HyperNeRF avant de contrôler une déformation faciale. En particulier, un réseau scénique implicite conditionnel avec un code latent commun et des codes latents de déformation par trame sont enseignés sur l’ensemble des trames d’entraînement. Leur découverte fondamentale consiste à utiliser de nombreux codes latents spatialement variables pour exprimer des déformations de scène pour des tâches de manipulation. L’épiphanie découle des inconvénients d’appliquer naïvement les formulations HyperNeRF aux problèmes de manipulation, à savoir rechercher un seul code latent qui encode une distorsion faciale souhaitée.

Par exemple, un seul code latent ne peut pas transmettre une expression faciale qui nécessite un mélange de déformations locales observées dans de nombreux cas. Dans leur étude, ils identifient ce problème comme un “problème d’attribut local lié” et y remédient en fournissant une scène modifiée avec des codes latents spatialement variables. Pour ce faire, ils regroupent d’abord toutes les déformations observées en une collection de codes d’ancrage, qu’ils enseignent ensuite à un MLP pour les combiner afin de produire de nombreux codes latents conditionnels à la position. Ensuite, en améliorant les images produites des codes latents pour qu’elles soient proches d’un texte cible dans l’espace d’incorporation CLIP, la réflectivité des codes latents sur les caractéristiques visuelles d’un texte cible est réalisée. En conclusion, leur travail apporte les contributions suivantes:

• Conception d’un réseau de manipulation qui apprend à représenter une scène avec des codes latents spatialement variables

• Proposition d’un pipeline de manipulation basé sur le texte d’un visage reconstruit avec NeRF

• À leur connaissance, la première personne à manipuler du texte sur un visage qui a été reconstruit par NeRF.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Présentation du projet Gameface une souris de jeu sans les mains, alimentée par l'IA.

Le projet Gameface, une nouvelle souris de jeu open-source sans les mains, a le potentiel de rendre les jeux vidéo pl...

AI

Intégrer l'IA générative dans l'application de recommandation de produits de Shopify

Plongez dans la manière dont l'IA générative a été intégrée dans l'application complète de recommandation de produits...

AI

.AI Les noms de domaine atteignent des valeurs élevées avec les ventes record récentes

2023 a connu une augmentation notable de la valeur transactionnelle des noms de domaine .ai. À l'origine, .ai est le ...

AI

Du jeu vidéo à l'IA le rôle pivot de Nvidia dans la révolution de l'IA

Nvidia vaut désormais plus que Facebook, Tesla et Netflix. Selon Reuters, la valeur de l'action a triplé au cours des...

AI

Apprentissage auto-supervisé et Transformers ? - Explication du document DINO

Certaines personnes adorent l'architecture Transformer et l'accueillent dans le domaine de la vision par ordinateur. ...