Découvrez GPS-Gaussian Une nouvelle approche d’intelligence artificielle pour la synthèse de nouvelles vues d’un personnage en temps réel.

Découvrez GPS-Gaussian Une nouvelle approche d'intelligence artificielle pour la création en temps réel de nouvelles perspectives d'un personnage.

https://shunyuanzheng.github.io/GPS-Gaussianhttps://shunyuanzheng.github.io/GPS-Gaussian

Une fonction essentielle des systèmes de caméra multi-vues est la synthèse de nouvelle vue (NVS), qui tente de générer des images photoréalistes sous de nouvelles perspectives en utilisant des photos sources. Les sous-domaines de l’NVS humaine ont le potentiel de contribuer de manière significative à l’efficacité en temps réel et aux apparences 3D cohérentes dans des domaines tels que la communication holographique, les performances scéniques et la capture de scènes immersives 3D/4D pour la diffusion sportive. Les efforts précédents ont utilisé un processus de mélange pondéré pour créer de nouvelles vues, mais ceux-ci reposaient généralement sur des vues d’entrée qui sont soit très denses, soit ont une géométrie de proxy très précise. Le rendu d’images haute fidélité pour l’NVS dans des paramètres de caméra à vue sparse reste un problème majeur.

Dans plusieurs tâches d’NVS, les représentations implicites, notamment les champs de radiance neurale (NeRF), ont récemment montré des performances exceptionnelles. Bien qu’il y ait eu des avancées dans les stratégies pour accélérer le processus, les méthodes d’NVS qui utilisent des représentations implicites prennent encore beaucoup de temps pour interroger des points denses dans l’espace de la scène. En revanche, les capacités de rendu en temps réel et à haute vitesse des représentations explicites, en particulier les nuages de points, ont suscité une attention soutenue. Lorsqu’ils sont combinés avec des réseaux neuronaux, les graphiques basés sur des points fournissent une représentation explicite impressionnante à la fois réaliste et plus efficace que NeRF dans le test d’NVS humain.

Une nouvelle recherche réalisée par l’Institut de technologie de Harbin et l’Université de Tsinghua vise à proposer une approche de splatting gaussien 3D généralisable pour régresser de manière de base les paramètres gaussiens plutôt que d’utiliser une optimisation par sujet dans cet article. Leur objectif est d’apprendre à utiliser de grands modèles de numérisation humaine 3D avec différentes topologies humaines, styles vestimentaires et déformations dépendantes de la posture pour créer des représentations gaussiennes, en s’inspirant de méthodes réussies de reconstruction humaine basées sur l’apprentissage, comme PIFu. L’approche proposée permet de décrire rapidement les apparences humaines grâce à un modèle gaussien généralisable en utilisant ces priorités humaines acquises.

Les chercheurs présentent des cartes de paramètres gaussiens 2D définies sur les plans d’image de la vue source (position, couleur, mise à l’échelle, rotation, opacité) en tant qu’alternative aux nuages de points non structurés. Grâce à ces cartes de paramètres gaussiens, il est possible de représenter un personnage en utilisant des paramètres pixel par pixel, où chaque pixel avant-plan correspond à un point gaussien spécifique. De plus, cela permet d’utiliser des réseaux de convolution 2D économiques par rapport aux opérateurs 3D. L’estimation de cartes de profondeur pour les deux vues source à l’aide de la stéréo à deux vues en tant que technique de déprojection apprenable élève les cartes de paramètres 2D en points gaussiens 3D. Les personnages sont représentés par ces points gaussiens déprojetés à partir des deux vues sources, et l’image de nouvelle vue peut être générée à l’aide de l’approche de splatting. Les auto-occlusions significatives dans les personnages humains rendent l’estimation de la profondeur ci-dessus un problème difficile avec les approches de volumes de coûts en cascade existantes. Par conséquent, l’équipe suggère de former simultanément leur régression des paramètres gaussiens et un module d’estimation de profondeur basé sur la correspondance stéréo itérative sur de grandes données. La minimisation de la perte de rendu du module gaussien corrige les éventuels artefacts pouvant être causés par l’estimation de la profondeur, ce qui améliore la précision de la détermination de la position gaussienne 3D. La formation devient plus stable avec l’aide d’une telle approche collaborative, ce qui est bénéfique pour toutes les parties.

En réalité, l’équipe a pu obtenir 2K nouvelles vues avec des taux d’images supérieurs à 25 FPS en n’utilisant qu’une seule carte graphique de pointe. Un personnage non vu peut être rendu instantanément sans optimisation ni ajustement fin à l’aide de la généralité et des capacités de rendu rapide de la méthode proposée.

Comme le souligne leur article, certains facteurs peuvent néanmoins affecter l’efficacité de la méthode, même si la synthèse gaussienne GPS suggérée permet de synthétiser des images de haute qualité. Par exemple, une étape de prétraitement essentielle est le rognage précis des premiers plans. De plus, lorsqu’une zone cible est complètement invisible dans une vue mais visible dans une autre, comme dans une configuration à 6 caméras, la méthode ne peut pas gérer adéquatement une grande différence. Les chercheurs estiment que cette difficulté peut être résolue en utilisant des données liées au temps.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La dernière innovation technologique de Gallaudet est un casque

Les joueurs de football malentendants pourraient bénéficier d'un casque prototype qui offre des affichages visuels de...

AI

Des chercheurs de l'Université Stanford présentent FlashFFTConv un nouveau système d'intelligence artificielle pour optimiser les convolutions FFT pour les longues séquences.

Raisonner efficacement sur des séquences étendues est une difficulté majeure en apprentissage automatique. Récemment,...

AI

Cette bibliothèque Python ‘Imitation’ fournit des implémentations open-source d'algorithmes d'imitation et d'apprentissage de récompense en PyTorch.

Dans les domaines où les fonctions de récompense sont clairement définies, comme les jeux, l’apprentissage par ...

AI

Cette recherche en IA présente des méthodes révolutionnaires pour adapter les modèles linguistiques à la conception de puces.

ChipNeMo explore l’utilisation des modèles de langage à grande échelle pour la conception de puces industrielle...

AI

Cette recherche en IA dévoile LSS Transformer une approche révolutionnaire en IA pour un apprentissage efficace des longues séquences dans les transformers.

Une nouvelle recherche en intelligence artificielle a introduit le Long Short-Sequence Transformer (LSS Transformer),...

AI

Les deux modèles de base Llama 2 de Meta sont désormais disponibles dans Amazon SageMaker JumpStart.

Aujourd'hui, nous sommes ravis d'annoncer que les modèles de base Llama 2 développés par Meta sont disponibles pour l...