Explorez la puissance des images dynamiques avec Text2Cinemagraph un nouvel outil d’IA pour la génération de cinémagraphes à partir de prompts de texte
Découvrez Text2Cinemagraph, un nouvel outil d'IA pour générer des cinémagraphes à partir de texte.
Si vous êtes nouveau dans le domaine, vous vous demandez peut-être ce que sont les cinémagraphes, mais je peux vous assurer que vous en avez probablement déjà rencontré. Les cinémagraphes sont des illustrations visuellement captivantes où des éléments spécifiques répètent des mouvements continus tandis que le reste de la scène reste immobile. Ce ne sont pas des images, mais nous ne pouvons pas les catégoriser comme des vidéos. Ils offrent un moyen unique de mettre en valeur des scènes dynamiques tout en capturant un moment particulier.
Au fil du temps, les cinémagraphes ont gagné en popularité sous forme de courtes vidéos et de GIF animés sur les plateformes de médias sociaux et les sites de partage de photos. On les trouve également couramment dans les journaux en ligne, les sites Web commerciaux et les réunions virtuelles. Cependant, créer un cinémagraphe est une tâche extrêmement difficile, car cela implique de capturer des vidéos ou des images à l’aide d’une caméra et d’utiliser des techniques semi-automatisées pour générer des vidéos en boucle sans soudure. Ce processus demande souvent une participation importante de l’utilisateur, notamment la capture de séquences appropriées, la stabilisation des images vidéo, la sélection de régions animées et statiques, et la spécification des directions de mouvement.
Dans l’étude proposée dans cet article, un nouveau problème de recherche est exploré, à savoir la synthèse de cinémagraphes basés sur du texte, afin de réduire considérablement la dépendance à l’égard de la capture de données et des efforts manuels laborieux. La méthode présentée dans ce travail capture des effets de mouvement tels que “l’eau qui tombe” et “la rivière qui coule” (illustrés dans la figure d’introduction), qui sont difficiles à exprimer par des photographies fixes et des techniques existantes de conversion de texte en image. Un aspect crucial est que cette approche élargit la gamme de styles et de compositions réalisables dans les cinémagraphes, permettant aux créateurs de contenu de spécifier des styles artistiques divers et de décrire des éléments visuels imaginatifs. La méthode présentée dans cette recherche a la capacité de générer à la fois des cinémagraphes réalistes et des scènes créatives ou hors du commun.
- Principes efficaces d’ingénierie de prompts pour les applications d’IA générative
- Voici pourquoi vous devriez lire ceci avant d’utiliser Pandas pour le nettoyage des données.
- ChatGPT détrôné Comment Claude est devenu le nouveau leader de l’IA
Les méthodes actuelles sont confrontées à d’importants défis pour aborder cette tâche novatrice. Une approche consiste à utiliser un modèle de conversion de texte en image pour générer une image artistique, puis à l’animer. Cependant, les méthodes d’animation existantes qui fonctionnent sur des images individuelles ont du mal à générer des mouvements significatifs pour des entrées artistiques, principalement en raison de leur formation sur des ensembles de données vidéo réelles. La construction d’un ensemble de données à grande échelle de vidéos en boucle artistiques est impraticable en raison de la complexité de la production de cinémagraphes individuels et des différents styles artistiques impliqués.
Alternativement, des modèles de vidéos basés sur du texte peuvent être utilisés pour générer des vidéos directement. Néanmoins, ces méthodes introduisent souvent des artefacts de scintillement temporel perceptibles dans les régions statiques et ne parviennent pas à produire les mouvements semi-périodiques souhaités.
Un algorithme appelé Text2Cinemagraph basé sur la synthèse d’images jumelles est proposé pour combler le fossé entre les images artistiques et les modèles d’animation conçus pour les vidéos réelles. Un aperçu de cette technique est présenté dans l’image ci-dessous.
La méthode génère deux images à partir d’une indication textuelle fournie par l’utilisateur – une artistique et une réaliste – qui partagent la même disposition sémantique. L’image artistique représente le style et l’apparence souhaités du résultat final, tandis que l’image réaliste sert d’entrée plus facilement traitable par les modèles de prédiction de mouvement actuels. Une fois le mouvement prédit pour l’image réaliste, ces informations peuvent être transférées à son homologue artistique, ce qui permet la synthèse du cinémagraphe final.
Bien que l’image réaliste ne soit pas affichée en tant que sortie ultime, elle joue un rôle crucial en tant que couche intermédiaire qui ressemble à la disposition sémantique de l’image artistique tout en étant compatible avec les modèles existants. Pour améliorer la prédiction de mouvement, des informations supplémentaires provenant des indications textuelles et de la segmentation sémantique de l’image réaliste sont exploitées.
Les résultats sont présentés ci-dessous.
Ceci était le résumé de Text2Cinemagraph, une nouvelle technique d’IA pour automatiser la génération de cinémagraphes réalistes. Si vous êtes intéressé et souhaitez en savoir plus sur ce travail, vous pouvez trouver des informations supplémentaires en cliquant sur les liens ci-dessous.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- L’accès aux données est gravement insuffisant dans la plupart des entreprises et 71% estiment que les données synthétiques peuvent aider.
- Créer des graphiques scientifiques facilement avec scienceplots et matplotlib
- Sur l’apprentissage en présence de groupes sous-représentés
- Rencontrez le concurrent de ChatGPT d’Alibaba, Tongyi Qianwen un modèle de langage puissant qui sera intégré dans les enceintes intelligentes Tmall Genie et la plateforme de messagerie professionnelle DingTalk.
- Exploration du contenu des fichiers DLIS avec Python
- Comment utiliser l’interpréteur de code d’OpenAI pour analyser les données
- Déverrouiller les secrets de la dimension de changement lent (SCD) Une vue complète des 8 types