De 2D à 3D Améliorer la cohérence de génération de texte en 3D avec des présomptions géométriques alignées

De la 2D à la 3D Améliorer la cohérence de la génération de texte en 3D grâce à des présomptions géométriques alignées

Convertir des images 2D en objets 3D dans le but de générer du texte en 3D est une tâche difficile. C’est principalement parce que les modèles de diffusion 2D ne peuvent apprendre que les priorités agnostiques à la vue et n’ont pas de compréhension de l’espace 3D lors de la conversion. Une conséquence de cette limitation est le problème d’inconsistance multi-vues, c’est-à-dire que l’objet 3D n’est pas cohérent sous tous les points de vue. Par exemple, si nous convertissons une image 2D d’un cube en espace 3D, le modèle peut générer un cube parfait d’un point de vue mais déformé d’autres.

Pour résoudre ce problème d’inconsistance géométrique, un groupe de chercheurs a introduit une nouvelle méthode appelée SweetDreamer, qui ajoute des formes 3D bien définies lors de la conversion et aligne ensuite les priorités géométriques 2D dans les modèles de diffusion. Le modèle y parvient en affinant le modèle de diffusion 2D pour être conscient du point de vue (afin de comprendre comment l’apparence de l’objet change selon le point de vue) et pour produire des cartes de coordonnées spécifiques de chaque point de vue des objets 3D canonialement orientés. Cette approche est très efficace pour produire des objets 3D cohérents sous tous les points de vue.

Les chercheurs ont réalisé que la principale raison derrière les résultats incohérents en 3D est due à l’inconsistance géométrique, et donc, leur objectif est de doter les priorités 2D de la capacité de générer des objets 3D qui ont la même apparence sous tous les points de vue tout en conservant leur généralisabilité.

La méthode proposée par les chercheurs exploite un ensemble de données 3D complet comprenant des modèles 3D canoniquement orientés et normalisés. Des cartes de profondeur sont rendues à partir d’angles aléatoires et converties en cartes de coordonnées canoniques. Ensuite, ils affinent le modèle de diffusion 2D pour produire la carte de coordonnées alignée avec une vue spécifique, alignant ainsi les priorités géométriques dans le modèle de diffusion 2D. Enfin, les priorités géométriques alignées peuvent être intégrées en douceur dans divers systèmes de génération de texte en 3D, réduisant efficacement les problèmes d’incohérence et produisant un contenu 3D varié et de haute qualité.

DMTet et NeRF sont deux représentations 3D courantes utilisées dans la génération de texte en 3D. Dans l’article de recherche, les auteurs ont montré que leurs priorités géométriques alignées peuvent être intégrées dans des pipelines de génération de texte en 3D basés sur DMTet et NeRF pour améliorer la qualité des objets 3D générés. Cela démontre la généralité de leur approche et son potentiel pour améliorer les performances d’une large gamme de systèmes de génération de texte en 3D.

En raison du manque de métriques bien établies pour évaluer les résultats des processus de génération de texte en 3D, les chercheurs se sont concentrés sur l’évaluation de la cohérence multi-vues des résultats en 3D. Ils ont sélectionné 80 prompts au hasard dans la galerie DreamFusion et ont effectué une génération de texte en 3D en utilisant chaque méthode. Les incohérences 3D ont ensuite été vérifiées manuellement pour rapporter le taux de réussite. Les chercheurs ont constaté que leur méthode surpassait significativement les autres méthodes. Leurs taux de réussite étaient supérieurs à 85% dans les deux pipelines (DMTet et NeRF), tandis que les autres méthodes se situaient autour de 30%.

En conclusion, la méthode SweetDreamers présente une nouvelle façon d’atteindre des performances de pointe dans la génération de texte en 3D. Elle peut générer des résultats à partir d’une large gamme de prompts qui ne souffrent pas du problème d’incohérence multi-vues. Elle offre de meilleures performances par rapport aux autres méthodes précédentes, et les chercheurs estiment que leur travail ouvrira une nouvelle voie pour utiliser des données 3D limitées afin d’améliorer les priorités de diffusion 2D pour la génération de texte en 3D.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Entrée vocale et langage naturel pour votre application mobile en utilisant LLMs

Dans cet article, vous apprendrez comment donner à votre application une compréhension de la parole hautement flexibl...

AI

Les chercheurs de l'UCLA présentent un système QPI multispectral conçu à partir d'un réseau neuronal optique diffractif à large bande

La microscopie quantitative par phase (QPI) est une méthode d’imagerie de pointe dans de nombreux domaines scie...

AI

Les États demandent plus de cours d'informatique. Maintenant, ils ont besoin d'enseignants.

Code.org a rapporté que chaque état des États-Unis avait une loi ou une politique en place favorisant l'éducation à l...

AI

Rencontrez NANA, l'avatar réceptionniste alimenté par l'IA de Moonshine Studio.

Note de l’éditeur : Cet article fait partie de notre série hebdomadaire Dans le Studio NVIDIA, qui met à l̵...

AI

Microsoft AI Research propose AltFreezing une nouvelle stratégie de formation pour une détection plus générale de la contrefaçon de visage.

Les identités ou les qualités qu’une vidéo de visage fournit peuvent désormais être modifiées et manipulées trè...

AI

Petits modèles de langage efficaces le phi-1.5 de Microsoft avec 1,3 milliard de paramètres

Apprenez-en davantage sur le modèle de Microsoft à 1,3 milliard de paramètres qui a surpassé le modèle à 7 milliards ...