L’éditeur vidéo IA cohérent est arrivé TokenFlow est un modèle IA qui utilise des fonctionnalités de diffusion pour un montage vidéo cohérent
L'éditeur vidéo IA cohérent TokenFlow est arrivé.
Les modèles de diffusion sont quelque chose que vous devriez connaître à ce stade. Ils ont été le sujet clé dans le domaine de l’IA au cours de la dernière année. Ces modèles ont montré un succès remarquable dans la génération d’images, et ils ont ouvert une toute nouvelle page.
Nous sommes dans l’ère de la génération de texte vers image, et ils s’améliorent quotidiennement. Les modèles génératifs basés sur la diffusion, tels que MidJourney, ont démontré d’incroyables capacités dans la synthèse d’images de haute qualité à partir de descriptions textuelles. Ces modèles utilisent des ensembles de données image-texte à grande échelle, ce qui leur permet de générer un contenu visuel diversifié et réaliste basé sur des instructions textuelles.
Les avancées rapides des modèles de texte vers image ont conduit à des progrès remarquables dans l’édition d’images et la génération de contenu. De nos jours, les utilisateurs peuvent contrôler divers aspects à la fois des images générées et des images réelles. Cela leur permet d’exprimer leurs idées de manière plus efficace et de démontrer le résultat de manière relativement rapide au lieu de passer des jours à dessiner manuellement.
- Les capacités de raisonnement analogique de l’IA un défi pour l’intelligence humaine ?
- Guide étape par étape pour créer un modèle DCGAN
- Des chercheurs de l’UC Berkeley introduisent Dynalang un agent d’IA qui apprend un modèle mondial multimodal pour prédire les représentations futures de texte et d’image, et apprend à agir à partir de simulations imaginées du modèle.
Cependant, l’histoire est différente lorsqu’il s’agit d’appliquer ces percées passionnantes au domaine des vidéos. Nous avons ici des progrès relativement plus lents. Bien que des modèles générateurs de texte vers vidéo à grande échelle aient émergé, montrant des résultats impressionnants dans la génération de clips vidéo à partir de descriptions textuelles, ils rencontrent encore des limitations en ce qui concerne la résolution, la durée de la vidéo et la complexité des dynamiques vidéo qu’ils peuvent représenter.
L’un des principaux défis de l’utilisation d’un modèle de diffusion d’images pour l’édition vidéo est de garantir que le contenu édité reste cohérent sur tous les images de la vidéo. Bien que les méthodes d’édition vidéo existantes basées sur les modèles de diffusion d’images aient atteint une cohérence globale de l’apparence en étendant le module d’auto-attention pour inclure plusieurs images, elles ne parviennent souvent pas à atteindre le niveau souhaité de cohérence temporelle. Cela oblige les professionnels et les semi-professionnels à recourir à des pipelines d’édition vidéo élaborés impliquant un travail manuel supplémentaire.
Faisons connaissance avec TokenFlow, un modèle d’IA qui utilise la puissance d’un modèle pré-entraîné de texte vers image pour permettre l’édition pilotée par le texte de vidéos naturelles.
L’objectif principal de TokenFlow est de générer des vidéos de haute qualité qui répondent à l’édition cible exprimée par une instruction textuelle d’entrée tout en préservant la disposition spatiale et le mouvement de la vidéo d’origine.
TokenFlow est introduit pour résoudre l’incohérence temporelle. Il applique explicitement les correspondances inter-images originales sur l’édition. En reconnaissant que les vidéos naturelles contiennent des informations redondantes entre les images, TokenFlow s’appuie sur l’observation que la représentation interne de la vidéo dans le modèle de diffusion présente des propriétés similaires.
Cette observation sert de pilier à TokenFlow, permettant l’application d’éditions cohérentes en veillant à ce que les caractéristiques de la vidéo éditée soient cohérentes entre les images. Cela est réalisé en propageant les caractéristiques de diffusion éditées en fonction de la dynamique vidéo d’origine, en exploitant la priorité générative du modèle de diffusion d’images de pointe sans avoir besoin de formation ou de réglage supplémentaire. TokenFlow fonctionne également parfaitement en conjonction avec une méthode d’édition d’images basée sur la diffusion prête à l’emploi.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- L’importance du nettoyage des données en science des données
- Alibaba met en open source un modèle d’IA pour concurrencer Meta et autonomiser les développeurs
- 10 Outils d’IA Qui Peuvent Générer du Code Pour Aider les Programmeurs
- La symphonie créative de l’IA générative dans la composition musicale
- Les modèles génératifs MONAI une plateforme open-source pour les avancées en imagerie médicale
- Découvrez CT2Hair un cadre entièrement automatique pour créer des modèles capillaires 3D haute fidélité adaptés à une utilisation dans des applications graphiques ultérieures.
- Découvrez Jupyter AI un nouveau projet open-source qui apporte l’intelligence artificielle générative aux cahiers Jupyter avec des commandes magiques et une interface de chat.