Explorez la puissance des images dynamiques avec Text2Cinemagraph un nouvel outil d’IA pour la génération de cinémagraphes à partir de prompts de texte

Découvrez Text2Cinemagraph, un nouvel outil d'IA pour générer des cinémagraphes à partir de texte.

Si vous êtes nouveau dans le domaine, vous vous demandez peut-être ce que sont les cinémagraphes, mais je peux vous assurer que vous en avez probablement déjà rencontré. Les cinémagraphes sont des illustrations visuellement captivantes où des éléments spécifiques répètent des mouvements continus tandis que le reste de la scène reste immobile. Ce ne sont pas des images, mais nous ne pouvons pas les catégoriser comme des vidéos. Ils offrent un moyen unique de mettre en valeur des scènes dynamiques tout en capturant un moment particulier.

Au fil du temps, les cinémagraphes ont gagné en popularité sous forme de courtes vidéos et de GIF animés sur les plateformes de médias sociaux et les sites de partage de photos. On les trouve également couramment dans les journaux en ligne, les sites Web commerciaux et les réunions virtuelles. Cependant, créer un cinémagraphe est une tâche extrêmement difficile, car cela implique de capturer des vidéos ou des images à l’aide d’une caméra et d’utiliser des techniques semi-automatisées pour générer des vidéos en boucle sans soudure. Ce processus demande souvent une participation importante de l’utilisateur, notamment la capture de séquences appropriées, la stabilisation des images vidéo, la sélection de régions animées et statiques, et la spécification des directions de mouvement.

Dans l’étude proposée dans cet article, un nouveau problème de recherche est exploré, à savoir la synthèse de cinémagraphes basés sur du texte, afin de réduire considérablement la dépendance à l’égard de la capture de données et des efforts manuels laborieux. La méthode présentée dans ce travail capture des effets de mouvement tels que “l’eau qui tombe” et “la rivière qui coule” (illustrés dans la figure d’introduction), qui sont difficiles à exprimer par des photographies fixes et des techniques existantes de conversion de texte en image. Un aspect crucial est que cette approche élargit la gamme de styles et de compositions réalisables dans les cinémagraphes, permettant aux créateurs de contenu de spécifier des styles artistiques divers et de décrire des éléments visuels imaginatifs. La méthode présentée dans cette recherche a la capacité de générer à la fois des cinémagraphes réalistes et des scènes créatives ou hors du commun.

Les méthodes actuelles sont confrontées à d’importants défis pour aborder cette tâche novatrice. Une approche consiste à utiliser un modèle de conversion de texte en image pour générer une image artistique, puis à l’animer. Cependant, les méthodes d’animation existantes qui fonctionnent sur des images individuelles ont du mal à générer des mouvements significatifs pour des entrées artistiques, principalement en raison de leur formation sur des ensembles de données vidéo réelles. La construction d’un ensemble de données à grande échelle de vidéos en boucle artistiques est impraticable en raison de la complexité de la production de cinémagraphes individuels et des différents styles artistiques impliqués.

Alternativement, des modèles de vidéos basés sur du texte peuvent être utilisés pour générer des vidéos directement. Néanmoins, ces méthodes introduisent souvent des artefacts de scintillement temporel perceptibles dans les régions statiques et ne parviennent pas à produire les mouvements semi-périodiques souhaités.

Un algorithme appelé Text2Cinemagraph basé sur la synthèse d’images jumelles est proposé pour combler le fossé entre les images artistiques et les modèles d’animation conçus pour les vidéos réelles. Un aperçu de cette technique est présenté dans l’image ci-dessous.

https://arxiv.org/abs/2307.03190

La méthode génère deux images à partir d’une indication textuelle fournie par l’utilisateur – une artistique et une réaliste – qui partagent la même disposition sémantique. L’image artistique représente le style et l’apparence souhaités du résultat final, tandis que l’image réaliste sert d’entrée plus facilement traitable par les modèles de prédiction de mouvement actuels. Une fois le mouvement prédit pour l’image réaliste, ces informations peuvent être transférées à son homologue artistique, ce qui permet la synthèse du cinémagraphe final.

Bien que l’image réaliste ne soit pas affichée en tant que sortie ultime, elle joue un rôle crucial en tant que couche intermédiaire qui ressemble à la disposition sémantique de l’image artistique tout en étant compatible avec les modèles existants. Pour améliorer la prédiction de mouvement, des informations supplémentaires provenant des indications textuelles et de la segmentation sémantique de l’image réaliste sont exploitées.

Les résultats sont présentés ci-dessous.

https://arxiv.org/abs/2307.03190

Ceci était le résumé de Text2Cinemagraph, une nouvelle technique d’IA pour automatiser la génération de cinémagraphes réalistes. Si vous êtes intéressé et souhaitez en savoir plus sur ce travail, vous pouvez trouver des informations supplémentaires en cliquant sur les liens ci-dessous.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez PIXART-α un modèle de diffusion basé sur les Transformers-T2I dont la qualité de génération d'images est compétitive avec les générateurs d'images de pointe.

Une nouvelle ère de synthèse d’images photoréalistes vient de commencer grâce au développement de modèles génér...

AI

Déverrouillage de la synthèse GPT-4 avec la chaîne de sollicitation de densité.

Débloquez la puissance de la GPT-4 summarization avec Chain of Density (CoD), une technique qui vise à équilibrer la ...

AI

Qu'est-ce que le chatbot dirait ?

À la recherche d'expliquer les capacités inattendues des grands modèles de langage.

Science des données

Utiliser les données pour écrire des chansons pour le progrès.

L'aînée Ananya Gurumurthy ajoute ses talents musicaux à ses études en mathématiques et en informatique pour promouvoi...

AI

Comment pouvons-nous mesurer l'incertitude dans les champs de radiance neuronaux ? Présentation de BayesRays un cadre révolutionnaire post-hoc pour les NeRFs

La création de modèles 3D fournit une représentation plus immersive et réaliste des scènes que les images 2D. Ils per...