Zero123++ Un modèle de base de diffusion multi-vues cohérent à partir d’une seule image

Zero123++ Un modèle de diffusion multi-vues cohérent à partir d'une seule image

Les dernières années ont été marquées par des avancées rapides dans les performances, l’efficacité et les capacités génératives des nouveaux modèles intelligents émergents génératifs basés sur l’IA qui exploitent de vastes ensembles de données et des pratiques de génération de diffusion bidimensionnelle. Aujourd’hui, les modèles IA génératifs sont extrêmement capables de générer différents types de contenus média bidimensionnels, et dans une certaine mesure tridimensionnels, tels que du texte, des images, des vidéos, des GIF, et bien plus encore.

Dans cet article, nous parlerons du framework Zero123++, un modèle IA génératif de diffusion conditionnée par des images ayant pour objectif de générer des images à plusieurs vues cohérentes en 3D à partir d’une seule vue d’entrée. Pour maximiser l’avantage tiré des modèles génératifs pré-entraînés précédents, le framework Zero123++ met en œuvre de nombreuses méthodes d’entraînement et de conditionnement visant à réduire l’effort nécessaire pour affiner les modèles d’images de diffusion prêts à l’emploi. Nous plongerons plus profondément dans l’architecture, le fonctionnement et les résultats du framework Zero123++, et analyserons ses capacités à générer des images cohérentes à plusieurs vues de haute qualité à partir d’une seule image. Alors, commençons !

Zero123 et Zero123++ : Une introduction

Le framework Zero123++ est un modèle IA génératif de diffusion conditionnée par des images qui vise à générer des images à plusieurs vues cohérentes en 3D à partir d’une seule vue d’entrée. Le framework Zero123++ est la continuité du framework Zero123 ou Zero-1-to-3 qui exploite une technique de synthèse d’images à vues nouvelles sans apprentissage pour pionnier les conversions de contenu en 3D à partir d’une seule image en open source. Bien que le framework Zero123++ offre des performances prometteuses, les images générées par le framework présentent des incohérences géométriques visibles, ce qui explique en grande partie le fossé qui persiste entre les scènes en 3D et les images à plusieurs vues.

Le framework Zero-1-to-3 sert de base à plusieurs autres frameworks, notamment SyncDreamer, One-2-3-45, Consistent123, et bien d’autres, qui ajoutent des couches supplémentaires au framework Zero123 pour obtenir des résultats plus cohérents lors de la génération d’images en 3D. D’autres frameworks tels que ProlificDreamer, DreamFusion, DreamGaussian, et d’autres suivent une approche basée sur l’optimisation pour obtenir des images en 3D en distillant une image en 3D à partir de différents modèles non cohérents. Bien que ces techniques soient efficaces et produisent des images en 3D satisfaisantes, les résultats pourraient être améliorés avec la mise en œuvre d’un modèle de diffusion de base capable de générer des images à plusieurs vues de manière cohérente. En conséquence, le framework Zero123++ utilise le framework Zero-1-to-3 comme base et affine un nouveau modèle de diffusion de base à plusieurs vues à partir de Stable Diffusion.

Dans le framework zero-1-to-3, chaque nouvelle vue est générée de manière indépendante, ce qui entraîne des incohérences entre les vues générées, car les modèles de diffusion ont une nature d’échantillonnage. Pour résoudre ce problème, le framework Zero123++ adopte une approche de disposition en mosaïque, par laquelle l’objet est entouré de six vues dans une seule image, et garantit une modélisation correcte de la distribution conjointe des images à plusieurs vues d’un objet.

Un autre défi majeur rencontré par les développeurs travaillant sur le framework Zero-1-to-3 est qu’il n’exploite pas pleinement les capacités offertes par Stable Diffusion, ce qui entraîne inefficacité et coûts supplémentaires. Il existe deux raisons principales pour lesquelles le framework Zero-1-to-3 ne peut pas maximiser les capacités offertes par Stable Diffusion :

  1. Lors de l’entraînement avec des conditions d’image, le framework Zero-1-to-3 n’incorpore pas efficacement les mécanismes de conditionnement local ou global offerts par Stable Diffusion.
  2. Pendant l’entraînement, le framework Zero-1-to-3 utilise une résolution réduite, une approche dans laquelle la résolution de sortie est réduite par rapport à la résolution d’entraînement, ce qui peut réduire la qualité de la génération d’images pour les modèles Stable Diffusion.

Pour résoudre ces problèmes, le framework Zero123++ met en œuvre une série de techniques de conditionnement qui maximisent l’utilisation des ressources offertes par Stable Diffusion, tout en maintenant la qualité de la génération d’images pour les modèles Stable Diffusion.

Amélioration du conditionnement et de la consistance

Dans le but d’améliorer le conditionnement des images et la cohérence des images à plusieurs vues, le framework Zero123++ a mis en œuvre différentes techniques, ayant comme objectif principal la réutilisation de techniques antérieures provenant du modèle Stable Diffusion pré-entraîné.

Génération de vues multiples

L’indispensable qualité de générer des images multi-vues cohérentes réside dans la modélisation correcte de la distribution conjointe de plusieurs images. Dans le cadre Zero-1-to-3, la corrélation entre les images multi-vues est ignorée car, pour chaque image, le cadre modélise indépendamment et séparément la distribution marginale conditionnelle. Cependant, dans le cadre Zero123++, les développeurs ont opté pour une approche de disposition en tuiles qui combine 6 images dans un seul cadre/image pour une génération cohérente d’images multi-vues, et le processus est illustré dans l’image suivante.

De plus, il a été remarqué que les orientations d’objets ont tendance à être écartées lors de l’entraînement du modèle sur les poses de caméra, et pour éviter cette ambiguïté, le cadre Zero-1-to-3 s’entraîne sur les poses de caméra avec des angles d’élévation et des azimuts relatifs à l’entrée. Pour mettre en œuvre cette approche, il est nécessaire de connaître l’angle d’élévation de la vue de l’entrée qui est ensuite utilisé pour déterminer la pose relative entre les nouvelles vues d’entrée. Dans une tentative de connaître cet angle d’élévation, les cadres ajoutent souvent un module d’estimation de l’élévation, et cette approche entraîne souvent des erreurs supplémentaires dans le pipeline.

Programme de bruit

Le programme linéaire échelonné, le programme de bruit d’origine de la diffusion stable se concentre principalement sur les détails locaux, mais comme on peut le voir dans l’image suivante, il comporte très peu d’étapes avec un rapport signal/bruit (SNR) inférieur.

Ces étapes avec un rapport signal/bruit faible se produisent tôt lors de l’étape de débruitage, une étape cruciale pour déterminer la structure globale à basse fréquence. Réduire le nombre d’étapes lors de l’étape de débruitage, que ce soit pendant les interférences ou l’entraînement, entraîne souvent une plus grande variation structurelle. Bien que cette configuration soit idéale pour la génération d’images individuelles, elle limite la capacité du cadre à garantir une cohérence globale entre les différentes vues. Pour surmonter cet obstacle, le cadre Zero123++ affine un modèle LoRA sur le cadre de prédiction v2 de la diffusion stable pour effectuer une tâche jouet, et les résultats sont illustrés ci-dessous.

Avec le programme de bruit linéaire échelonné, le modèle LoRA ne surapprend pas, mais blanchit légèrement l’image. En revanche, lorsqu’il travaille avec le programme de bruit linéaire, le cadre LoRA génère avec succès une image vierge indépendamment de la demande d’entrée, ce qui indique l’impact du programme de bruit sur la capacité du cadre à s’adapter aux nouvelles exigences de manière globale.

Attention de référence échelonnée pour les conditions locales

L’entrée à une seule vue ou les images de conditionnement dans le cadre Zero-1-to-3 est concaténée avec les entrées bruitées dans la dimension des caractéristiques pour le conditionnement de l’image.

Cette concaténation conduit à une correspondance spatiale incorrecte pixel par pixel entre l’image cible et l’entrée. Pour fournir une condition locale appropriée à l’entrée, le cadre Zero123++ utilise une attention de référence échelonnée, une approche dans laquelle un modèle UNet de débruitage est exécuté sur une image de référence supplémentaire, suivie de l’ajout de matrices de valeurs et de clés d’auto-attention à partir de l’image de référence aux couches d’attention respectives lorsque l’entrée du modèle est débruitée, comme cela est illustré dans la figure suivante.

L’approche de l’attention de référence est capable de guider le modèle de diffusion pour générer des images partageant une texture ressemblante avec l’image de référence, et un contenu sémantique sans aucun affinage. Avec l’affinage, l’approche de l’attention de référence donne des résultats supérieurs avec l’échelle latente.

Conditionnement global : FlexDiffuse

Dans l’approche originale de la diffusion stable, les incrustations de texte sont la seule source d’incrustations globales, et l’approche utilise le cadre CLIP en tant qu’encodeur de texte pour effectuer des croisements entre les incrustations de texte et les latents du modèle. En conséquence, les développeurs sont libres d’utiliser l’alignement entre les espaces de texte et les images CLIP résultantes pour les utiliser dans les conditionnements globaux des images.

Le framework Zero123++ propose d’utiliser une variante entraînable du mécanisme de guidage linéaire pour incorporer la condition globale de l’image dans le cadre avec un minimum de réglages fins nécessaires, et les résultats sont démontrés dans l’image suivante. Comme on peut le voir, sans la présence d’une condition globale de l’image, la qualité du contenu généré par le framework est satisfaisante pour les régions visibles qui correspondent à l’image d’entrée. Cependant, la qualité de l’image générée par le framework pour les régions invisibles témoigne d’une détérioration significative qui est principalement due à l’incapacité du modèle à déduire les sémantiques globales de l’objet.

Architecture du modèle

Le framework Zero123++ est entraîné avec le modèle Stable Diffusion 2v comme base en utilisant les différentes approches et techniques mentionnées dans l’article. Le framework Zero123++ est pré-entraîné sur le jeu de données Objaverse qui est rendu avec un éclairage HDRI aléatoire. Le framework adopte également l’approche de planification de l’entraînement par phases utilisée dans le framework Stable Diffusion Image Variations afin de minimiser davantage la quantité de réglages fins nécessaires et de conserver autant que possible la diffusion stable précédente.

Le fonctionnement ou l’architecture du framework Zero123++ peut être divisé en étapes ou phases séquentielles. La première phase permet au framework d’ajuster finement les matrices KV des couches d’attention croisée et les couches d’auto-attention de Stable Diffusion avec AdamW comme optimiseur, 1000 étapes d’amorçage progressif et un calendrier d’apprentissage cosine atteignant un maximum de 7×10-5. Dans la deuxième phase, le framework utilise un taux d’apprentissage constant très conservateur avec 2000 ensembles d’amorçage progressif et utilise l’approche Min-SNR pour maximiser l’efficacité lors de l’entraînement.

Zero123++ : Résultats et comparaison des performances

Performance qualitative

Pour évaluer les performances du framework Zero123++ en termes de qualité générée, il est comparé à SyncDreamer et Zero-1-to-3-XL, deux des meilleurs frameworks actuels pour la génération de contenu. Les frameworks sont comparés à quatre images d’entrée avec différentes perspectives. La première image est un jouet chat électrique, prise directement depuis le jeu de données Objaverse, et elle présente une grande incertitude sur l’arrière de l’objet. La deuxième image est celle d’un extincteur, et la troisième est l’image d’un chien assis sur une fusée, générée par le modèle SDXL. La dernière image est une illustration d’anime. Les étapes d’élévation requises pour les frameworks sont obtenues en utilisant la méthode d’estimation d’élévation du framework One-2-3-4-5, et la suppression de l’arrière-plan est réalisée à l’aide du framework SAM. Comme on peut le voir, le framework Zero123++ génère des images multi-vues de haute qualité de manière cohérente et est capable de généraliser également aux illustrations 2D hors domaine générées par IA.

Analyse quantitative

Pour comparer qualitativement le framework Zero123++ aux frameworks Zero-1-to-3 et Zero-1to-3 XL les plus avancés, les développeurs évaluent le score de similarité d’image perceptuelle apprise (LPIPS) de ces modèles sur les données de validation, un sous-ensemble du jeu de données Objaverse. Pour évaluer les performances du modèle en matière de génération d’images multi-vues, les développeurs juxtaposent les images de référence de vérité terrain et les 6 images générées respectivement, puis calculent le score de similarité d’image perceptuelle apprise (LPIPS). Les résultats sont démontrés ci-dessous et, comme on peut le voir clairement, le framework Zero123++ offre les meilleures performances sur l’ensemble des données de validation.

Évaluation de Text to Multi-View

Pour évaluer la capacité du framework Zero123++ à générer du contenu Text to Multi-View, les développeurs utilisent d’abord le framework SDXL avec des incitations textuelles pour générer une image, puis utilisent le framework Zero123++ pour l’image générée. Les résultats sont démontrés dans l’image suivante et, comme on peut le voir, par rapport au framework Zero-1-to-3 qui ne peut pas garantir une génération multi-vue cohérente, le framework Zero123++ retourne des images multi-vues cohérentes, réalistes et très détaillées en implémentant l’approche ou le pipeline texte-vers-image-vers-multi-vue.

Zero123++ Depth ControlNet

En plus du framework de base Zero123++, les développeurs ont également publié le Depth ControlNet Zero123++, une version contrôlée en profondeur du framework original construit avec l’architecture ControlNet. Les images linéaires normalisées sont rendues par rapport aux images RGB ultérieures, et un framework ControlNet est entraîné pour contrôler la géométrie du framework Zero123++ en utilisant la perception de profondeur.

Conclusion

Dans cet article, nous avons parlé de Zero123++, un modèle d’intelligence artificielle générative conditionné par image visant à générer des images multi-vues 3D cohérentes à partir d’une seule vue d’entrée. Pour maximiser l’avantage obtenu grâce aux modèles génératifs pré-entraînés antérieurs, le framework Zero123++ met en œuvre de nombreuses stratégies d’entraînement et de conditionnement pour minimiser les efforts nécessaires afin de peaufiner les modèles d’images de diffusion disponibles. Nous avons également discuté des différentes approches et améliorations mises en œuvre par le framework Zero123++ qui lui permettent d’obtenir des résultats comparables, voire supérieurs, à ceux obtenus par les frameworks actuels de pointe.

Cependant, malgré son efficacité et sa capacité à générer de manière cohérente des images multi-vues de haute qualité, le framework Zero123++ a encore une marge d’amélioration, avec des domaines de recherche potentiels tels :

  • Modèle d’affinage en deux étapes qui pourrait résoudre l’incapacité de Zero123++ à répondre aux exigences mondiales de cohérence.
  • Des mises à jour d’échelle supplémentaires pour améliorer davantage la capacité de Zero123++ à générer des images d’une qualité encore plus élevée.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Débloquer la créativité Comment l'IA générative et Amazon SageMaker aident les entreprises à produire des créations publicitaires pour des campagnes marketing avec AWS

Les agences de publicité peuvent utiliser l'IA générative et les modèles de base texte-image pour créer des créations...

AI

Automatisez la création de légendes et la recherche d'images à grande échelle en utilisant l'IA générative et Amazon Kendra.

Amazon Kendra est un service de recherche intelligent alimenté par l'apprentissage automatique (ML). Amazon Kendra ré...

AI

Ajustez finement Falcon 7B et d'autres LLMs sur Amazon SageMaker avec le décorateur @remote

Aujourd'hui, les modèles d'IA générative couvrent une variété de tâches, de la résumé de texte, aux questions-réponse...

AI

Implémenter un index de recherche de documents intelligents avec Amazon Textract et Amazon OpenSearch

Dans cet article, nous vous emmènerons dans un voyage pour construire et déployer rapidement une solution d'indexatio...

AI

Améliorez les réponses LLM dans les cas d'utilisation RAG en interagissant avec l'utilisateur

L'une des utilisations les plus courantes de l'IA générative et des modèles de langage volumineux (LLM) est de répond...

AI

Construisez des solutions de PDI bien conçues avec une approche personnalisée – Partie 2 Sécurité

La construction d'une solution prête à la production sur AWS implique une série de compromis entre les ressources, le...