Cet article sur l’IA propose ‘MotionDirector’ une approche d’intelligence artificielle pour personnaliser les mouvements et l’apparence des vidéos.
Cet article sur l'IA présente 'MotionDirector' une approche d'intelligence artificielle pour personnaliser les mouvements et l'apparence des vidéos.
Les modèles de diffusion texte-vers-vidéo ont connu des avancées significatives ces derniers temps. En fournissant simplement des descriptions textuelles, les utilisateurs peuvent désormais créer des vidéos réalistes ou imaginatives. Ces modèles de base ont également été ajustés pour générer des images correspondant à des apparences, des styles et des sujets spécifiques. Cependant, il reste encore à explorer la personnalisation du mouvement dans la génération texte-vers-vidéo. Les utilisateurs peuvent souhaiter créer des vidéos avec des mouvements spécifiques, tels qu’une voiture avançant puis tournant à gauche. Il est donc important d’adapter les modèles de diffusion pour créer un contenu plus spécifique répondant aux préférences des utilisateurs.
Les auteurs de cet article ont proposé MotionDirector, qui aide les modèles de base à personnaliser le mouvement tout en maintenant une diversité d’apparence en même temps. La technique utilise une architecture à double chemin pour former les modèles à apprendre séparément l’apparence et les mouvements dans les vidéos de référence uniques ou multiples données, ce qui facilite la généralisation du mouvement personnalisé à d’autres configurations.
L’architecture à double chemin comprend à la fois un chemin spatial et un chemin temporel. Le chemin spatial comprend un modèle de base avec des LoRAs spatiales (adaptations à faible rang) entraînables intégrées dans ses couches de transformation pour chaque vidéo. Ces LoRAs spatiales sont formés en utilisant une trame unique sélectionnée au hasard à chaque étape de formation pour capturer les attributs visuels des vidéos d’entrée. En revanche, le chemin temporel duplique le modèle de base, partageant les LoRAs spatiales avec le chemin spatial pour s’adapter à l’apparence de la vidéo d’entrée donnée. De plus, les transformateurs temporels dans ce chemin sont améliorés avec des LoRAs temporelles, qui sont formés en utilisant plusieurs trames des vidéos d’entrée pour saisir les motifs de mouvement inhérents.
- Ce bulletin d’information sur l’IA est tout ce dont vous avez besoin #69
- 6 Opérations courantes liées aux index que vous devriez connaître sur Pandas
- Classification d’images pour débutants
En déployant les LoRAs temporelles formées, le modèle de base peut synthétiser des vidéos avec des mouvements appris et des apparences diverses. L’architecture à double chemin permet aux modèles d’apprendre l’apparence et le mouvement des objets dans les vidéos séparément. Ce découplage permet à MotionDirector d’isoler l’apparence et le mouvement des vidéos, puis de les combiner à partir de diverses vidéos sources.
Les chercheurs ont comparé les performances de MotionDirector sur plusieurs références, avec plus de 80 mouvements différents et 600 instructions textuelles. Sur la référence UCF Sports Action (avec 95 vidéos et 72 instructions textuelles), MotionDirector a été préféré par les évaluateurs humains environ 75 % du temps pour une meilleure fidélité de mouvement. La méthode a également surpassé les 25 % de préférences des modèles de base. Sur la deuxième référence, à savoir la référence LOVEU-TGVE-2023 (avec 76 vidéos et 532 instructions textuelles), MotionDirector a mieux performé que d’autres méthodes de génération contrôlable et basées sur l’ajustement. Les résultats démontrent que de nombreux modèles de base peuvent être personnalisés à l’aide de MotionDirector pour produire des vidéos caractérisées par la diversité et les concepts de mouvement souhaités.
MotionDirector est une nouvelle méthode prometteuse qui permet d’adapter les modèles de diffusion texte-vers-vidéo pour générer des vidéos avec des mouvements spécifiques. Il excelle dans l’apprentissage et l’adaptation de mouvements spécifiques des sujets et des caméras, et peut être utilisé pour générer des vidéos avec une grande variété de styles visuels.
Un domaine dans lequel MotionDirector peut être amélioré est l’apprentissage du mouvement de plusieurs sujets sur les vidéos de référence. Cependant, même avec cette limitation, MotionDirector a le potentiel d’améliorer la flexibilité de la génération vidéo, permettant aux utilisateurs de créer des vidéos adaptées à leurs préférences et à leurs besoins.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Kafka Streaming d’événements, IA et Automatisation
- Nouvelle méthode d’IA pour la prédiction de la structure des protéines gère tous les types de molécules biologiquement pertinentes
- Entraînement du modèle TensorFlow en utilisant GradientTape
- Permettre la segmentation des clients alimentée par l’IA pour les entreprises B2B une feuille de route
- «Créez un Pipeline RAG avec l’Indice LLama»
- AudioSep Séparez Tout ce que Vous Décrivez
- Quelques techniques d’ingénierie rapides et efficaces pour améliorer nos modèles LLM