Des chercheurs de KAIST présentent FaceCLIPNeRF un pipeline de manipulation textuelle d’un visage en 3D utilisant NeRF déformable.

Des chercheurs de KAIST présentent FaceCLIPNeRF, un pipeline de manipulation textuelle d'un visage en 3D utilisant NeRF déformable.

Un composant crucial des améliorations du contenu numérique humain en 3D est la capacité à manipuler facilement la représentation du visage en 3D. Bien que Neural Radiance Field (NeRF) ait fait des progrès significatifs dans la reconstruction de scènes en 3D, bon nombre de ses techniques de manipulation se concentrent sur la géométrie rigide ou les manipulations de couleur, qui doivent être améliorées pour les emplois nécessitant un contrôle précis des expressions faciales. Bien qu’une étude récente ait présenté une approche d’édition du visage contrôlée régionalement, elle nécessite une procédure laborieuse de collecte de masques annotés par l’utilisateur de différentes parties du visage à partir de trames d’entraînement sélectionnées, suivie d’un contrôle des attributs humains pour accomplir une modification souhaitée.

Les techniques de représentation implicite spécifiques au visage codent les expressions faciales observées avec une grande fidélité en utilisant les paramètres des modèles de visage morphable comme priors. Leurs manipulations manuelles nécessitent cependant de grands ensembles d’entraînement qui couvrent une gamme d’expressions faciales et comprennent environ 6000 trames. Cela rend à la fois la collecte de données et les processus de manipulation laborieux. À la place, des chercheurs de KAIST et de Scatter Lab ont développé une méthode qui s’entraîne sur une vidéo portrait dynamique avec environ 300 trames d’entraînement comprenant quelques types différents d’instances de déformation faciale pour permettre la modification basée sur le texte, comme le montre la figure 1.

Figure 1

Leur approche apprend et isole les déformations observées à partir d’un espace canonique en utilisant HyperNeRF avant de contrôler une déformation faciale. En particulier, un réseau scénique implicite conditionnel avec un code latent commun et des codes latents de déformation par trame sont enseignés sur l’ensemble des trames d’entraînement. Leur découverte fondamentale consiste à utiliser de nombreux codes latents spatialement variables pour exprimer des déformations de scène pour des tâches de manipulation. L’épiphanie découle des inconvénients d’appliquer naïvement les formulations HyperNeRF aux problèmes de manipulation, à savoir rechercher un seul code latent qui encode une distorsion faciale souhaitée.

Par exemple, un seul code latent ne peut pas transmettre une expression faciale qui nécessite un mélange de déformations locales observées dans de nombreux cas. Dans leur étude, ils identifient ce problème comme un “problème d’attribut local lié” et y remédient en fournissant une scène modifiée avec des codes latents spatialement variables. Pour ce faire, ils regroupent d’abord toutes les déformations observées en une collection de codes d’ancrage, qu’ils enseignent ensuite à un MLP pour les combiner afin de produire de nombreux codes latents conditionnels à la position. Ensuite, en améliorant les images produites des codes latents pour qu’elles soient proches d’un texte cible dans l’espace d’incorporation CLIP, la réflectivité des codes latents sur les caractéristiques visuelles d’un texte cible est réalisée. En conclusion, leur travail apporte les contributions suivantes:

• Conception d’un réseau de manipulation qui apprend à représenter une scène avec des codes latents spatialement variables

• Proposition d’un pipeline de manipulation basé sur le texte d’un visage reconstruit avec NeRF

• À leur connaissance, la première personne à manipuler du texte sur un visage qui a été reconstruit par NeRF.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Un exaoctet de stockage de disque au CERN

L'Organisation européenne pour la recherche nucléaire (CERN) en Suisse a dépassé le seuil de 1 exaoctet, accumulant 1...

AI

Une introduction pratique aux LLM

Ceci est le premier article d'une série sur l'utilisation des grands modèles de langage (LLM) en pratique. Ici, je do...

AI

Robot apprend à nettoyer l'espace exactement comme vous le souhaitez

Les roboticistes ont développé un robot capable de nettoyer des espaces en fonction des préférences personnelles des ...

AI

Améliorer la factualié dans l'IA Cette recherche en IA présente Self-RAG pour des modèles de langage plus précis et réfléchis

Le Self-Reflective Retrieval-Augmented Generation (SELF-RAG) est un cadre qui améliore les grands modèles de langage ...

AI

Le catalogue des modèles d'IA Azure de Microsoft s'étend avec des modèles d'intelligence artificielle révolutionnaires

Microsoft a dévoilé une expansion significative de son catalogue Azure AI Model, intégrant une gamme de modèles dR...

AI

Édition étendue NVIDIA étend Maxine pour le montage vidéo, présente la recherche sur la visioconférence virtuelle 3D

Les professionnels, les équipes, les créateurs et d’autres peuvent exploiter la puissance de l’IA pour cr...