Renaissance Numérique la recherche Neuralangelo de NVIDIA reconstruit des scènes 3D

NVIDIA's Neuralangelo research reconstructs 3D scenes for Renaissance Numérique.

Neuralangelo, un nouveau modèle d’IA de NVIDIA Research pour la reconstruction 3D à l’aide de réseaux neuronaux, transforme des clips vidéo 2D en structures 3D détaillées, générant des répliques virtuelles réalistes de bâtiments, sculptures et autres objets réels.

Tel Michel-Ange sculptant de magnifiques visions réalistes à partir de blocs de marbre, Neuralangelo génère des structures 3D avec des détails et des textures complexes. Les professionnels de la création peuvent ensuite importer ces objets 3D dans des applications de conception, les éditer davantage pour les utiliser dans l’art, le développement de jeux vidéo, la robotique et les jumeaux numériques industriels.

La capacité de Neuralangelo à traduire les textures de matériaux complexes – y compris les bardeaux de toit, les panneaux de verre et le marbre lisse – à partir de vidéos 2D en actifs 3D dépasse considérablement les méthodes précédentes. La haute fidélité rend ses reconstructions 3D plus faciles pour les développeurs et les professionnels de la création, afin de créer rapidement des objets virtuels utilisables pour leurs projets à l’aide de séquences capturées par des smartphones.

“Les capacités de reconstruction 3D offertes par Neuralangelo seront un énorme avantage pour les créateurs, les aidant à recréer le monde réel dans le monde numérique”, a déclaré Ming-Yu Liu, directeur principal de la recherche et co-auteur de l’article. “Cet outil permettra finalement aux développeurs d’importer des objets détaillés – qu’il s’agisse de petites statues ou de bâtiments massifs – dans des environnements virtuels pour les jeux vidéo ou les jumeaux numériques industriels.”

Lors d’une démonstration, les chercheurs de NVIDIA ont présenté comment le modèle pouvait recréer des objets aussi emblématiques que David de Michel-Ange et aussi courants qu’un camion à plateau. Neuralangelo peut également reconstruire des intérieurs et des extérieurs de bâtiments – démontré avec un modèle 3D détaillé du parc du campus de NVIDIA dans la région de la baie.

Le modèle de rendu neuronal voit en 3D

Les modèles d’IA précédents pour la reconstruction de scènes 3D ont eu du mal à capturer avec précision les motifs de texture répétitifs, les couleurs homogènes et les fortes variations de couleur. Neuralangelo adopte des primitives graphiques neuronales instantanées, la technologie derrière NVIDIA Instant NeRF, pour aider à capturer ces détails plus fins.

En utilisant une vidéo 2D d’un objet ou d’une scène filmée sous différents angles, le modèle sélectionne plusieurs images qui capturent différents points de vue – comme un artiste considérant un sujet sous différents angles pour avoir une idée de la profondeur, de la taille et de la forme.

Une fois qu’il a déterminé la position de la caméra de chaque image, l’IA de Neuralangelo crée une représentation 3D approximative de la scène, comme un sculpteur commençant à sculpter la forme du sujet.

Le modèle optimise ensuite le rendu pour affiner les détails, tout comme un sculpteur taille patiemment la pierre pour imiter la texture du tissu ou d’une figure humaine.

Le résultat final est un objet 3D ou une scène à grande échelle qui peut être utilisé dans des applications de réalité virtuelle, des jumeaux numériques ou le développement de la robotique.

Retrouvez les recherches de NVIDIA lors de CVPR, du 18 au 22 juin

Neuralangelo est l’un des près de 30 projets de NVIDIA Research qui seront présentés lors de la Conférence sur la vision par ordinateur et la reconnaissance des formes (CVPR), qui se tiendra du 18 au 22 juin à Vancouver. Les articles abordent des sujets tels que l’estimation de la pose, la reconstruction 3D et la génération de vidéos.

L’un de ces projets, DiffCollage, est une méthode de diffusion qui crée des contenus à grande échelle – notamment des images en orientation paysage longue, des panoramas à 360 degrés et des images en mouvement en boucle. Lorsqu’il est alimenté par un ensemble de données d’entraînement d’images avec un ratio d’aspect standard, DiffCollage traite ces images plus petites comme des sections d’une image plus grande – comme des pièces d’un collage. Cela permet aux modèles de diffusion de générer du contenu à grande échelle cohérent sans être entraînés sur des images de la même échelle.

La technique peut également transformer les instructions textuelles en séquences vidéo, démontrée à l’aide d’un modèle de diffusion pré-entraîné qui capture le mouvement humain:



En savoir plus sur la recherche de NVIDIA à CVPR.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Un changement de paradigme dans le développement de logiciels les agents d'intelligence artificielle AI de GPTConsole ouvrent de nouveaux horizons

Dans une industrie où le changement est la seule constante, GPTConsole a introduit un trio d’agents d’IA ...

AI

UC San Diego chercheurs DYffusion Un modèle de diffusion informé par la dynamique pour la prévision spatiotemporelle

Projetant le comportement futur d’un système dynamique, ou prévision de la dynamique, implique de comprendre le...

AI

Cours de génération d'IA gratuits par Google

Avec l'IA générative étant un sujet très en vogue, découvrez-en davantage sur ces cours proposés qui peuvent vous don...

Apprentissage automatique

IA Modèles linguistiques et visuels de grande taille

Cet article traite de l'importance des grands modèles de langage et de vision dans l'IA, de leurs capacités, des syne...