Explorez la puissance des images dynamiques avec Text2Cinemagraph un nouvel outil d’IA pour la génération de cinémagraphes à partir de prompts de texte

Découvrez Text2Cinemagraph, un nouvel outil d'IA pour générer des cinémagraphes à partir de texte.

Si vous êtes nouveau dans le domaine, vous vous demandez peut-être ce que sont les cinémagraphes, mais je peux vous assurer que vous en avez probablement déjà rencontré. Les cinémagraphes sont des illustrations visuellement captivantes où des éléments spécifiques répètent des mouvements continus tandis que le reste de la scène reste immobile. Ce ne sont pas des images, mais nous ne pouvons pas les catégoriser comme des vidéos. Ils offrent un moyen unique de mettre en valeur des scènes dynamiques tout en capturant un moment particulier.

Au fil du temps, les cinémagraphes ont gagné en popularité sous forme de courtes vidéos et de GIF animés sur les plateformes de médias sociaux et les sites de partage de photos. On les trouve également couramment dans les journaux en ligne, les sites Web commerciaux et les réunions virtuelles. Cependant, créer un cinémagraphe est une tâche extrêmement difficile, car cela implique de capturer des vidéos ou des images à l’aide d’une caméra et d’utiliser des techniques semi-automatisées pour générer des vidéos en boucle sans soudure. Ce processus demande souvent une participation importante de l’utilisateur, notamment la capture de séquences appropriées, la stabilisation des images vidéo, la sélection de régions animées et statiques, et la spécification des directions de mouvement.

Dans l’étude proposée dans cet article, un nouveau problème de recherche est exploré, à savoir la synthèse de cinémagraphes basés sur du texte, afin de réduire considérablement la dépendance à l’égard de la capture de données et des efforts manuels laborieux. La méthode présentée dans ce travail capture des effets de mouvement tels que “l’eau qui tombe” et “la rivière qui coule” (illustrés dans la figure d’introduction), qui sont difficiles à exprimer par des photographies fixes et des techniques existantes de conversion de texte en image. Un aspect crucial est que cette approche élargit la gamme de styles et de compositions réalisables dans les cinémagraphes, permettant aux créateurs de contenu de spécifier des styles artistiques divers et de décrire des éléments visuels imaginatifs. La méthode présentée dans cette recherche a la capacité de générer à la fois des cinémagraphes réalistes et des scènes créatives ou hors du commun.

Les méthodes actuelles sont confrontées à d’importants défis pour aborder cette tâche novatrice. Une approche consiste à utiliser un modèle de conversion de texte en image pour générer une image artistique, puis à l’animer. Cependant, les méthodes d’animation existantes qui fonctionnent sur des images individuelles ont du mal à générer des mouvements significatifs pour des entrées artistiques, principalement en raison de leur formation sur des ensembles de données vidéo réelles. La construction d’un ensemble de données à grande échelle de vidéos en boucle artistiques est impraticable en raison de la complexité de la production de cinémagraphes individuels et des différents styles artistiques impliqués.

Alternativement, des modèles de vidéos basés sur du texte peuvent être utilisés pour générer des vidéos directement. Néanmoins, ces méthodes introduisent souvent des artefacts de scintillement temporel perceptibles dans les régions statiques et ne parviennent pas à produire les mouvements semi-périodiques souhaités.

Un algorithme appelé Text2Cinemagraph basé sur la synthèse d’images jumelles est proposé pour combler le fossé entre les images artistiques et les modèles d’animation conçus pour les vidéos réelles. Un aperçu de cette technique est présenté dans l’image ci-dessous.

La méthode génère deux images à partir d’une indication textuelle fournie par l’utilisateur – une artistique et une réaliste – qui partagent la même disposition sémantique. L’image artistique représente le style et l’apparence souhaités du résultat final, tandis que l’image réaliste sert d’entrée plus facilement traitable par les modèles de prédiction de mouvement actuels. Une fois le mouvement prédit pour l’image réaliste, ces informations peuvent être transférées à son homologue artistique, ce qui permet la synthèse du cinémagraphe final.

Bien que l’image réaliste ne soit pas affichée en tant que sortie ultime, elle joue un rôle crucial en tant que couche intermédiaire qui ressemble à la disposition sémantique de l’image artistique tout en étant compatible avec les modèles existants. Pour améliorer la prédiction de mouvement, des informations supplémentaires provenant des indications textuelles et de la segmentation sémantique de l’image réaliste sont exploitées.

Les résultats sont présentés ci-dessous.

Ceci était le résumé de Text2Cinemagraph, une nouvelle technique d’IA pour automatiser la génération de cinémagraphes réalistes. Si vous êtes intéressé et souhaitez en savoir plus sur ce travail, vous pouvez trouver des informations supplémentaires en cliquant sur les liens ci-dessous.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Explorez la puissance des images dynamiques avec Text2Cinemagraph un nouvel outil d’IA pour la génération de cinémagraphes à partir de prompts de texte

Découvrez Text2Cinemagraph, un nouvel outil d'IA pour générer des cinémagraphes à partir de texte.

Was this article helpful?

Principes efficaces d’ingénierie de prompts pour les applications d’IA générative

Introduction pratique aux modèles de transformation BERT

AI

Découvrez PIXART-α un modèle de diffusion basé sur les Transformers-T2I dont la qualité de génération d'images est compétitive avec les générateurs d'images de pointe.

Robot Chien Fait le Moonwalk à la MJ Cette recherche en IA propose d'utiliser des récompenses représentées dans le code en tant qu'interface flexible entre les LLM et un contrôleur de mouvement basé sur l'optimisation.

Déverrouillage de la synthèse GPT-4 avec la chaîne de sollicitation de densité.

Qu'est-ce que le chatbot dirait ?

Utiliser les données pour écrire des chansons pour le progrès.

Comment pouvons-nous mesurer l'incertitude dans les champs de radiance neuronaux ? Présentation de BayesRays un cadre révolutionnaire post-hoc pour les NeRFs