L’éditeur vidéo IA cohérent est arrivé TokenFlow est un modèle IA qui utilise des fonctionnalités de diffusion pour un montage vidéo cohérent

L'éditeur vidéo IA cohérent TokenFlow est arrivé.

Les modèles de diffusion sont quelque chose que vous devriez connaître à ce stade. Ils ont été le sujet clé dans le domaine de l’IA au cours de la dernière année. Ces modèles ont montré un succès remarquable dans la génération d’images, et ils ont ouvert une toute nouvelle page.

Nous sommes dans l’ère de la génération de texte vers image, et ils s’améliorent quotidiennement. Les modèles génératifs basés sur la diffusion, tels que MidJourney, ont démontré d’incroyables capacités dans la synthèse d’images de haute qualité à partir de descriptions textuelles. Ces modèles utilisent des ensembles de données image-texte à grande échelle, ce qui leur permet de générer un contenu visuel diversifié et réaliste basé sur des instructions textuelles.

Les avancées rapides des modèles de texte vers image ont conduit à des progrès remarquables dans l’édition d’images et la génération de contenu. De nos jours, les utilisateurs peuvent contrôler divers aspects à la fois des images générées et des images réelles. Cela leur permet d’exprimer leurs idées de manière plus efficace et de démontrer le résultat de manière relativement rapide au lieu de passer des jours à dessiner manuellement.

Cependant, l’histoire est différente lorsqu’il s’agit d’appliquer ces percées passionnantes au domaine des vidéos. Nous avons ici des progrès relativement plus lents. Bien que des modèles générateurs de texte vers vidéo à grande échelle aient émergé, montrant des résultats impressionnants dans la génération de clips vidéo à partir de descriptions textuelles, ils rencontrent encore des limitations en ce qui concerne la résolution, la durée de la vidéo et la complexité des dynamiques vidéo qu’ils peuvent représenter.

L’un des principaux défis de l’utilisation d’un modèle de diffusion d’images pour l’édition vidéo est de garantir que le contenu édité reste cohérent sur tous les images de la vidéo. Bien que les méthodes d’édition vidéo existantes basées sur les modèles de diffusion d’images aient atteint une cohérence globale de l’apparence en étendant le module d’auto-attention pour inclure plusieurs images, elles ne parviennent souvent pas à atteindre le niveau souhaité de cohérence temporelle. Cela oblige les professionnels et les semi-professionnels à recourir à des pipelines d’édition vidéo élaborés impliquant un travail manuel supplémentaire.

Faisons connaissance avec TokenFlow, un modèle d’IA qui utilise la puissance d’un modèle pré-entraîné de texte vers image pour permettre l’édition pilotée par le texte de vidéos naturelles.

L’objectif principal de TokenFlow est de générer des vidéos de haute qualité qui répondent à l’édition cible exprimée par une instruction textuelle d’entrée tout en préservant la disposition spatiale et le mouvement de la vidéo d’origine.

TokenFlow peut éditer des vidéos naturelles à l’aide d’instructions textuelles. Source : https://arxiv.org/pdf/2307.10373.pdf

TokenFlow est introduit pour résoudre l’incohérence temporelle. Il applique explicitement les correspondances inter-images originales sur l’édition. En reconnaissant que les vidéos naturelles contiennent des informations redondantes entre les images, TokenFlow s’appuie sur l’observation que la représentation interne de la vidéo dans le modèle de diffusion présente des propriétés similaires.

Aperçu de TokenFlow. Source : https://arxiv.org/pdf/2307.10373.pdf

Cette observation sert de pilier à TokenFlow, permettant l’application d’éditions cohérentes en veillant à ce que les caractéristiques de la vidéo éditée soient cohérentes entre les images. Cela est réalisé en propageant les caractéristiques de diffusion éditées en fonction de la dynamique vidéo d’origine, en exploitant la priorité générative du modèle de diffusion d’images de pointe sans avoir besoin de formation ou de réglage supplémentaire. TokenFlow fonctionne également parfaitement en conjonction avec une méthode d’édition d’images basée sur la diffusion prête à l’emploi.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Transformer la recherche sur les catalyseurs Découvrez CatBERTa, un modèle d'IA basé sur les Transformers conçu pour la prédiction de l'énergie à l'aide de données textuelles.

La recherche sur les catalyseurs chimiques est un domaine dynamique où de nouvelles solutions durables sont toujours ...

AI

Des chercheurs de Microsoft et de Columbia proposent LLM-AUGMENTER un système d'IA qui augmente un LLM boîte noire avec un ensemble de modules plug-and-play.

Les modèles de langage de grande taille (LLM) tels que GPT-3 sont largement reconnus pour leur capacité à générer des...

AI

Adopter l'IA pour le développement de logiciels stratégies de solution et mise en œuvre

L'article fournit un guide complet pour intégrer de manière transparente l'IA dans le développement de logiciels, abo...

AI

Du jeu vidéo à l'IA Le rôle central de Nvidia dans la révolution de l'IA

Nvidia vaut maintenant plus que Facebook, Tesla et Netflix. Selon Reuters, la valeur de l'action a triplé au cours de...

AI

Créez un slogan mémorable en utilisant ChatGPT

Trouver un slogan qui encapsule parfaitement votre marque est une tâche ardue. Utilisez cette invite ChatGPT pour vou...