De 2D à 3D Améliorer la cohérence de génération de texte en 3D avec des présomptions géométriques alignées
De la 2D à la 3D Améliorer la cohérence de la génération de texte en 3D grâce à des présomptions géométriques alignées
Convertir des images 2D en objets 3D dans le but de générer du texte en 3D est une tâche difficile. C’est principalement parce que les modèles de diffusion 2D ne peuvent apprendre que les priorités agnostiques à la vue et n’ont pas de compréhension de l’espace 3D lors de la conversion. Une conséquence de cette limitation est le problème d’inconsistance multi-vues, c’est-à-dire que l’objet 3D n’est pas cohérent sous tous les points de vue. Par exemple, si nous convertissons une image 2D d’un cube en espace 3D, le modèle peut générer un cube parfait d’un point de vue mais déformé d’autres.
Pour résoudre ce problème d’inconsistance géométrique, un groupe de chercheurs a introduit une nouvelle méthode appelée SweetDreamer, qui ajoute des formes 3D bien définies lors de la conversion et aligne ensuite les priorités géométriques 2D dans les modèles de diffusion. Le modèle y parvient en affinant le modèle de diffusion 2D pour être conscient du point de vue (afin de comprendre comment l’apparence de l’objet change selon le point de vue) et pour produire des cartes de coordonnées spécifiques de chaque point de vue des objets 3D canonialement orientés. Cette approche est très efficace pour produire des objets 3D cohérents sous tous les points de vue.
Les chercheurs ont réalisé que la principale raison derrière les résultats incohérents en 3D est due à l’inconsistance géométrique, et donc, leur objectif est de doter les priorités 2D de la capacité de générer des objets 3D qui ont la même apparence sous tous les points de vue tout en conservant leur généralisabilité.
- Déverrouillage de la transparence de l’IA Comment le regroupement des fonctionnalités d’Anthropic améliore l’interprétabilité des réseaux neuronaux.
- Optimisation fine LLM Optimisation fine efficiente des paramètres (PEFP) — LoRA et QLoRA — Partie 1
- Oracle présente sa vision d’un avenir axé sur l’IA et le Cloud
La méthode proposée par les chercheurs exploite un ensemble de données 3D complet comprenant des modèles 3D canoniquement orientés et normalisés. Des cartes de profondeur sont rendues à partir d’angles aléatoires et converties en cartes de coordonnées canoniques. Ensuite, ils affinent le modèle de diffusion 2D pour produire la carte de coordonnées alignée avec une vue spécifique, alignant ainsi les priorités géométriques dans le modèle de diffusion 2D. Enfin, les priorités géométriques alignées peuvent être intégrées en douceur dans divers systèmes de génération de texte en 3D, réduisant efficacement les problèmes d’incohérence et produisant un contenu 3D varié et de haute qualité.
DMTet et NeRF sont deux représentations 3D courantes utilisées dans la génération de texte en 3D. Dans l’article de recherche, les auteurs ont montré que leurs priorités géométriques alignées peuvent être intégrées dans des pipelines de génération de texte en 3D basés sur DMTet et NeRF pour améliorer la qualité des objets 3D générés. Cela démontre la généralité de leur approche et son potentiel pour améliorer les performances d’une large gamme de systèmes de génération de texte en 3D.
En raison du manque de métriques bien établies pour évaluer les résultats des processus de génération de texte en 3D, les chercheurs se sont concentrés sur l’évaluation de la cohérence multi-vues des résultats en 3D. Ils ont sélectionné 80 prompts au hasard dans la galerie DreamFusion et ont effectué une génération de texte en 3D en utilisant chaque méthode. Les incohérences 3D ont ensuite été vérifiées manuellement pour rapporter le taux de réussite. Les chercheurs ont constaté que leur méthode surpassait significativement les autres méthodes. Leurs taux de réussite étaient supérieurs à 85% dans les deux pipelines (DMTet et NeRF), tandis que les autres méthodes se situaient autour de 30%.
En conclusion, la méthode SweetDreamers présente une nouvelle façon d’atteindre des performances de pointe dans la génération de texte en 3D. Elle peut générer des résultats à partir d’une large gamme de prompts qui ne souffrent pas du problème d’incohérence multi-vues. Elle offre de meilleures performances par rapport aux autres méthodes précédentes, et les chercheurs estiment que leur travail ouvrira une nouvelle voie pour utiliser des données 3D limitées afin d’améliorer les priorités de diffusion 2D pour la génération de texte en 3D.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La bulle de l’IA générative éclatera bientôt
- Décrypter la signification statistique Le guide du professionnel du marketing
- Gouvernance de la sécurité et gestion des risques dans l’architecture d’entreprise
- Pont entre les grands modèles linguistiques et les affaires LLMops
- Embrasser Julia Une lettre d’invitation
- Améliorer l’IA conversationnelle avec BERT la puissance du remplissage des espaces réservés
- Transformer du texte en vecteurs L’approche non supervisée de TSDAE pour des plongements améliorés