Rencontrez 3D-GPT un cadre d’intelligence artificielle pour la modélisation 3D dirigée par les instructions qui utilise les grands modèles de langage (LLMs).

Découvrez 3D-GPT un outil d'intelligence artificielle révolutionnaire pour la création de modèles 3D basée sur des instructions, utilisant de puissants modèles de langage (LLM).

En utilisant des modèles méticuleusement détaillés, la production de contenu 3D à l’ère du métaverse redéfinit les expériences multimédias dans les industries du jeu, de la réalité virtuelle et du cinéma. Cependant, les concepteurs ont souvent besoin d’aide pour un processus de modélisation 3D chronophage, en commençant par des formes fondamentales (comme des cubes, des sphères ou des cylindres) et en utilisant des outils tels que Blender pour la contouring exacte, le détail et la texture. Le rendu et le post-traitement permettent de finaliser cette production intensive en main-d’œuvre et de donner le modèle final poli. Bien que les paramètres variables et les systèmes basés sur des règles rendent la génération procédurale efficace pour automatiser le développement du contenu, cela nécessite une compréhension approfondie des règles de génération, des cadres algorithmiques et des paramètres individuels.

Un autre élément de complexité est ajouté lorsque ces procédures sont coordonnées avec les aspirations créatives des clients grâce à une communication efficace. Cela souligne l’importance de rationaliser l’approche traditionnelle de la modélisation 3D pour permettre aux créateurs de l’ère du métaverse de s’exprimer. Les LLM ont démontré des compétences remarquables en matière de planification et d’utilisation d’outils et une capacité de compréhension du langage. De plus, les LLM montrent une compétence exceptionnelle dans la caractérisation des qualités des objets comme la structure et la texture, ce qui leur permet d’améliorer les détails à partir de descriptions de base. Ils excellent également dans la compréhension des fonctions de code complexe et l’analyse de courts textes tout en facilitant sans effort les interactions efficaces avec l’utilisateur. Ils ont exploré les nouvelles utilisations de ces compétences exceptionnelles dans la modélisation procédurale 3D.

Leur objectif principal est d’utiliser pleinement les LLM pour exercer un contrôle sur les logiciels créatifs 3D en conformité avec les demandes des clients. Pour réaliser cet objectif, des chercheurs de l’Université nationale australienne, de l’Université d’Oxford et de l’Académie de l’intelligence artificielle de Pékin ont introduit 3D-GPT, un cadre conçu pour faciliter la synthèse de contenu 3D basée sur des instructions. En divisant le processus de modélisation 3D en segments plus petits et plus gérables et en décidant quand, où et comment les achever, 3D-GPT permet aux LLM d’agir comme des agents de résolution de problèmes. L’agent de conceptualisation, l’agent de modélisation 3D et l’agent de répartition des tâches sont les trois principaux agents qui composent 3DGPT. En ajustant les fonctions de génération 3D, les deux premiers agents travaillent de concert pour répondre aux responsabilités de la conceptualisation 3D et de la modélisation 3D.

Le troisième agent contrôle ensuite le système en acceptant la première saisie de texte, en gérant les commandes ultérieures et en favorisant une communication efficace entre les deux premiers agents. Ce faisant, ils favorisent deux objectifs importants. Il améliore les descriptions de scènes initiales en les orientant vers des formes plus approfondies et pertinentes sur le plan contextuel, puis modifie l’entrée textuelle en fonction des instructions supplémentaires. Deuxièmement, ils utilisent la génération procédurale, une méthode d’interaction avec les logiciels 3D qui utilise des paramètres variables et des systèmes basés sur des règles plutôt que de créer directement chaque composant du matériau 3D. Leur 3D-GPT peut dériver des valeurs de paramètres pertinentes du texte amélioré et comprendre les routines de génération procédurale. En utilisant les descriptions écrites des utilisateurs comme guide, 3D-GPT fournit une création 3D précise et personnalisable.

Dans des scénarios complexes avec de nombreux éléments différents, spécifier manuellement chaque paramètre contrôlable dans la création procédurale réduit les efforts. De plus, 3D-GPT améliore la participation de l’utilisateur, rationalise le processus créatif et place l’utilisateur au premier plan. De plus, 3D-GPT s’intègre parfaitement à Blender, offrant aux utilisateurs un accès à divers outils de manipulation, y compris l’édition de maillage, les simulations de mouvement physique, les animations d’objets, les changements de matériaux et les ajouts de primitives. Ils affirment que les LLM peuvent traiter des informations visuelles plus complexes sur la base de leurs tests.

Voici un résumé de leurs contributions :

• Présentation de 3D-GPT, un cadre de création de scènes 3D qui offre une formation gratuite. Leur méthode utilise les compétences intégrées de raisonnement multimodal des LLM pour augmenter la productivité de la modélisation procédurale 3D de l’utilisateur final.

• Exploration d’une approche alternative en matière de génération de texte en 3D, dans laquelle leur 3D-GPT crée des programmes Python pour faire fonctionner des logiciels 3D, ce qui permet peut-être une flexibilité supplémentaire pour les applications du monde réel.

• Des études empiriques montrent que les LLM ont un grand potentiel dans leur capacité à réfléchir, planifier et utiliser des outils tout en créant du matériel 3D.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Aborder les défis de l'IA et de l'IMO une percée dans les systèmes de géométrie formelle des avions

“`html Grâce à des efforts diligents et un engagement inébranlable, les chercheurs entreprennent un voyage plur...

AI

Do Flamingo et DALL-E se comprennent-ils ? Explorer la symbiose entre les modèles de légendage d'images et de synthèse texte-image

La recherche multimodale qui améliore la compréhension informatique des textes et des visuels a récemment fait de gra...

Science des données

Explication des bases de données vectorielles en 3 niveaux de difficulté

Cet article explique les bases de données vectorielles, depuis l'intuition jusqu'à certains exemples et détails techn...

AI

Établissez la confiance et la sécurité pour les applications d'IA générative avec Amazon Comprehend et LangChain

Nous assistons à une augmentation rapide de l'adoption de grands modèles linguistiques (LLM) qui alimentent des appli...