Cette recherche en IA présente deux modèles de diffusion pour la génération de vidéos de haute qualité les modèles de Texte-vers-Vidéo (T2V) et Image-vers-Vidéo (I2V).
Cette recherche en IA présente deux modèles de diffusion pour la génération de vidéos de haute qualité le modèle Texte-vers-Vidéo (T2V) et le modèle Image-vers-Vidéo (I2V).
Une équipe de chercheurs de Hong Kong a présenté deux modèles de diffusion open-source pour la génération de vidéos de haute qualité. Le modèle texte-vers-vidéo (T2V) génère des vidéos de qualité cinématographique à partir d’une saisie de texte, surpassant ainsi les autres modèles T2V open-source en termes de performances. D’autre part, le modèle image-vers-vidéo (I2V) convertit une image de référence en une vidéo tout en préservant le contenu, la structure et le style. Ces modèles sont censés faire avancer la technologie de génération de vidéos tant dans le milieu universitaire que dans l’industrie, en fournissant des ressources précieuses aux chercheurs et aux ingénieurs.
Les modèles de diffusion (DMs) se sont distingués dans la génération de contenu, y compris la génération de texte-vers-image et de vidéo. Les modèles de diffusion vidéo (VDMs), tels que Make-A-Video, Imagen Video, et d’autres, ont étendu le cadre Stable Diffusion (SD) pour assurer une cohérence temporelle dans les modèles T2V open-source. Cependant, ces modèles présentent des limitations en termes de résolution, de qualité et de composition. Ces modèles surpassent les modèles T2V open-source existants, faisant progresser la technologie dans la communauté.
Les modèles génératifs, en particulier les modèles de diffusion, ont fait avancer la génération d’images et de vidéos. Alors que des modèles open-source de texte-vers-image (T2I) existent, les modèles T2V sont limités. T2V inclut des couches d’attention temporelle et un entraînement conjoint pour assurer la cohérence, tandis que I2V préserve le contenu et la structure de l’image. En partageant ces modèles, les chercheurs visent à renforcer la communauté open-source et à faire avancer la technologie de génération de vidéos.
- Ce modèle d’IA chinois peut-il surpasser ChatGPT et Claude2? Découvrez le modèle Baichuan2-192k dévoilé par cette startup chinoise ‘Baichuan Intelligent’ avec le modèle de contexte le plus long.
- Cette recherche en IA présente Atom une technique de quantification à faible nombre de bits pour un service efficace et précis des grands modèles de langage (LLM).
- Samsung présente ‘Gauss’ un nouveau modèle d’intelligence artificielle linguistique pour défier la suprématie de ChatGPT.
L’étude présente deux modèles de diffusion : T2V et I2V. T2V utilise une architecture U-Net 3D avec des blocs spatio-temporels, des couches de convolution, des transformateurs spatiaux et temporels, ainsi que des couches d’attention croisée doubles pour aligner les plongements de texte et d’image. I2V transforme les images en clips vidéo, en préservant le contenu, la structure et le style. Les deux modèles utilisent un réseau de projection apprenable pour l’entraînement. L’évaluation implique des mesures de qualité vidéo et d’alignement entre le texte et la vidéo.
Les modèles T2V et I2V proposés excellent en termes de qualité vidéo et d’alignement texte-vidéo, surpassant les autres modèles open-source. T2V utilise une architecture U-Net 3D de débruitage, offrant une grande fidélité visuelle dans les vidéos générées. I2V transforme efficacement les images en clips vidéo, en préservant le contenu, la structure et le style. L’analyse comparative par rapport à des modèles tels que Gen-2, Pika Labs et ModelScope met en évidence leurs performances supérieures en termes de qualité visuelle, d’alignement texte-vidéo, de cohérence temporelle et de qualité du mouvement.
En conclusion, l’introduction récente des modèles T2V et I2V pour la génération de vidéos a montré un grand potentiel pour faire progresser les avancées technologiques dans la communauté. Bien que ces modèles aient démontré des performances supérieures en termes de qualité vidéo et d’alignement texte-vidéo, il reste encore des améliorations à apporter dans des domaines tels que la durée, la résolution et la qualité du mouvement des vidéos générées. Cependant, avec le développement de ces modèles open-source, les chercheurs estiment que des améliorations supplémentaires dans ce domaine seront possibles.
À l’avenir, il serait possible d’ajouter des images intermédiaires et de créer un modèle d’interpolation d’images pour étendre la durée du modèle au-delà de 2 secondes. Pour améliorer la résolution, il serait possible de collaborer avec ScaleCrafter ou d’utiliser le rehaussement spatial. Il peut être conseillé de travailler avec des données de meilleure qualité pour améliorer la qualité du mouvement et visuelle. L’inclusion de suggestions d’images et la recherche de branches conditionnelles d’images pourraient également être des domaines potentiels à explorer pour créer un contenu dynamique avec une fidélité visuelle améliorée en utilisant le modèle de diffusion.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cette recherche en IA présente des méthodes révolutionnaires pour adapter les modèles linguistiques à la conception de puces.
- Surveillance de la qualité des données pour vos pipelines de Big Data rendue facile
- Éviter le surajustement des données dans les modèles d’apprentissage automatique
- Comment styliser des graphiques avec Matplotlib
- Le courageux pas de Binny Bansal, milliardaire, dans les services d’IA un changement de donneur de jeu
- VoAGI News, 8 novembre 5 étapes simples pour maîtriser Python, SQL, Scikit-learn, PyTorch et Google Cloud • SQL pour la visualisation des données
- Amazon vs. Alibaba La bataille des géants de l’IA conversationnelle