Révolutionner la synthèse de vue nouvelle en temps réel en 1080p une percée avec des gaussiennes 3D et un rendu conscient de la visibilité

Révolutionner la synthèse de vue nouvelle en temps réel en 1080p avec des gaussiennes 3D et un rendu conscient de la visibilité.

Les maillages et les points sont les représentations de scène 3D les plus courantes car elles sont explicites et conviennent parfaitement à la rasterisation rapide basée sur GPU/CUDA. En revanche, les méthodes récentes de Neural Radiance Field (NeRF) reposent sur des représentations de scène continues, optimisant généralement un Perceptron Multi-Couches (MLP) en utilisant la marche de rayons volumétriques pour la synthèse de nouvelles vues de scènes capturées. De même, les solutions les plus efficaces de champ de radiance reposent sur des représentations continues en interpolant les valeurs stockées dans, par exemple, des grilles de voxels, des hachages ou des points. Bien que la nature constante de ces méthodes facilite l’optimisation, l’échantillonnage stochastique requis pour le rendu est coûteux et peut entraîner du bruit.

Des chercheurs de l’Université Côte d’Azur et du Max-Planck-Institut für Informatik présentent une nouvelle approche qui combine le meilleur des deux mondes : leur représentation gaussienne 3D permet d’optimiser avec une qualité visuelle de pointe (SOTA) et des temps d’entraînement compétitifs. En même temps, leur solution de “splatting” basée sur des tuiles assure un rendu en temps réel avec une qualité SOTA pour une résolution 1080p sur plusieurs ensembles de données précédemment publiés (voir Fig. 1). Leur objectif est de permettre un rendu en temps réel pour les scènes capturées avec plusieurs photos et de créer les représentations avec des temps d’optimisation aussi rapides que les méthodes précédentes les plus efficaces pour les scènes réelles typiques. Les méthodes récentes obtiennent une formation rapide mais ont du mal à atteindre la qualité visuelle obtenue par les méthodes NeRF SOTA actuelles, c’est-à-dire Mip-NeRF360, qui nécessite jusqu’à 48 heures de formation.

Figure 1: L’approche permet de rendre les champs de radiance en temps réel avec une qualité comparable aux meilleures méthodes précédentes tout en ne nécessitant que des temps d’optimisation correspondant aux méthodes précédentes les plus rapides. Une représentation de scène gaussienne 3D unique et un rendu différentiable en temps réel, qui accélère considérablement l’optimisation de la scène et la synthèse de vues innovante, sont essentiels à cette performance. Bien que ce soit la meilleure qualité que InstantNGP puisse produire après un temps de formation comparable, ils peuvent obtenir une qualité de pointe en 51 minutes, ce qui est même légèrement supérieur à Mip-NeRF360.

Les méthodes de champ de radiance rapides – mais de moindre qualité – peuvent atteindre des temps de rendu interactifs en fonction de la scène (10 à 15 images par seconde), mais ne permettent pas un rendu en temps réel de haute résolution. Leur solution repose sur trois composantes principales. Ils introduisent d’abord les Gaussiennes 3D comme une représentation de scène flexible et expressive. Ils partent du même input que les méthodes NeRF-like précédentes, c’est-à-dire des caméras calibrées avec Structure-from-Motion (SfM) et initialisent l’ensemble des Gaussiennes 3D avec le nuage de points clairsemé produit gratuitement dans le cadre du processus SfM. Contrairement à la plupart des solutions basées sur des points qui nécessitent des données Multi-View Stereo (MVS), ils obtiennent des résultats de haute qualité avec seulement les points SfM en entrée. Notez que pour l’ensemble de données NeRF-synthétique, leur méthode atteint une haute qualité même avec une initialisation aléatoire.

Ils montrent que les Gaussiennes 3D sont un excellent choix car elles constituent une représentation volumétrique différentiable. Néanmoins, elles peuvent être rasterisées très efficacement en les projetant en 2D et en appliquant un mélange standard 𝛼, en utilisant un modèle de formation d’image équivalent à NeRF. La deuxième composante de leur méthode est l’optimisation des propriétés des Gaussiennes 3D – position 3D, opacité 𝛼, covariance anisotrope et coefficients harmoniques sphériques (SH) – entrelacée avec des étapes de contrôle de densité adaptative, où ils ajoutent et suppriment occasionnellement des Gaussiennes 3D pendant l’optimisation. La procédure d’optimisation produit une représentation raisonnablement compacte, non structurée et précise de la scène (1 à 5 millions de Gaussiennes pour toutes les scènes testées). Le troisième et dernier élément de leur méthode est leur solution de rendu en temps réel, qui utilise des algorithmes de tri rapides sur GPU inspirés de la rasterisation basée sur des tuiles selon les travaux récents.

Cependant, grâce à leur représentation gaussienne en 3D, ils peuvent effectuer un éclatement anisotrope qui respecte l’ordre de visibilité – grâce au tri et au mélange 𝛼 – et permettent un passage arrière rapide et précis en suivant le parcours des éclats triés autant de fois que nécessaire. En résumé, ils apportent les contributions suivantes :

• L’introduction de gaussiennes anisotropes en 3D en tant que représentation de qualité supérieure et non structurée des champs de radiance.

• Une méthode d’optimisation des propriétés gaussiennes en 3D, entrelacée avec un contrôle adaptatif de la densité, crée des représentations de haute qualité pour les scènes capturées.

• Une approche de rendu rapide et différentiable pour le GPU, qui est consciente de la visibilité, permet l’éclatement anisotrope et une rétropropagation rapide pour obtenir une synthèse de vue nouvelle de haute qualité.

Leurs résultats sur des ensembles de données précédemment publiés montrent qu’ils peuvent optimiser leurs gaussiennes en 3D à partir de captures multi-vues et obtenir une qualité égale ou supérieure à celle des meilleures approches de champ de radiance implicite précédentes. Ils peuvent également atteindre des vitesses d’apprentissage et une qualité similaires aux méthodes les plus rapides et, surtout, fournir le premier rendu en temps réel de haute qualité pour la synthèse de vue nouvelle.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more