Cette recherche en IA présente deux modèles de diffusion pour la génération de vidéos de haute qualité les modèles de Texte-vers-Vidéo (T2V) et Image-vers-Vidéo (I2V).

Cette recherche en IA présente deux modèles de diffusion pour la génération de vidéos de haute qualité le modèle Texte-vers-Vidéo (T2V) et le modèle Image-vers-Vidéo (I2V).

Une équipe de chercheurs de Hong Kong a présenté deux modèles de diffusion open-source pour la génération de vidéos de haute qualité. Le modèle texte-vers-vidéo (T2V) génère des vidéos de qualité cinématographique à partir d’une saisie de texte, surpassant ainsi les autres modèles T2V open-source en termes de performances. D’autre part, le modèle image-vers-vidéo (I2V) convertit une image de référence en une vidéo tout en préservant le contenu, la structure et le style. Ces modèles sont censés faire avancer la technologie de génération de vidéos tant dans le milieu universitaire que dans l’industrie, en fournissant des ressources précieuses aux chercheurs et aux ingénieurs.

Les modèles de diffusion (DMs) se sont distingués dans la génération de contenu, y compris la génération de texte-vers-image et de vidéo. Les modèles de diffusion vidéo (VDMs), tels que Make-A-Video, Imagen Video, et d’autres, ont étendu le cadre Stable Diffusion (SD) pour assurer une cohérence temporelle dans les modèles T2V open-source. Cependant, ces modèles présentent des limitations en termes de résolution, de qualité et de composition. Ces modèles surpassent les modèles T2V open-source existants, faisant progresser la technologie dans la communauté.

Les modèles génératifs, en particulier les modèles de diffusion, ont fait avancer la génération d’images et de vidéos. Alors que des modèles open-source de texte-vers-image (T2I) existent, les modèles T2V sont limités. T2V inclut des couches d’attention temporelle et un entraînement conjoint pour assurer la cohérence, tandis que I2V préserve le contenu et la structure de l’image. En partageant ces modèles, les chercheurs visent à renforcer la communauté open-source et à faire avancer la technologie de génération de vidéos.

L’étude présente deux modèles de diffusion : T2V et I2V. T2V utilise une architecture U-Net 3D avec des blocs spatio-temporels, des couches de convolution, des transformateurs spatiaux et temporels, ainsi que des couches d’attention croisée doubles pour aligner les plongements de texte et d’image. I2V transforme les images en clips vidéo, en préservant le contenu, la structure et le style. Les deux modèles utilisent un réseau de projection apprenable pour l’entraînement. L’évaluation implique des mesures de qualité vidéo et d’alignement entre le texte et la vidéo.

Les modèles T2V et I2V proposés excellent en termes de qualité vidéo et d’alignement texte-vidéo, surpassant les autres modèles open-source. T2V utilise une architecture U-Net 3D de débruitage, offrant une grande fidélité visuelle dans les vidéos générées. I2V transforme efficacement les images en clips vidéo, en préservant le contenu, la structure et le style. L’analyse comparative par rapport à des modèles tels que Gen-2, Pika Labs et ModelScope met en évidence leurs performances supérieures en termes de qualité visuelle, d’alignement texte-vidéo, de cohérence temporelle et de qualité du mouvement.

En conclusion, l’introduction récente des modèles T2V et I2V pour la génération de vidéos a montré un grand potentiel pour faire progresser les avancées technologiques dans la communauté. Bien que ces modèles aient démontré des performances supérieures en termes de qualité vidéo et d’alignement texte-vidéo, il reste encore des améliorations à apporter dans des domaines tels que la durée, la résolution et la qualité du mouvement des vidéos générées. Cependant, avec le développement de ces modèles open-source, les chercheurs estiment que des améliorations supplémentaires dans ce domaine seront possibles.

À l’avenir, il serait possible d’ajouter des images intermédiaires et de créer un modèle d’interpolation d’images pour étendre la durée du modèle au-delà de 2 secondes. Pour améliorer la résolution, il serait possible de collaborer avec ScaleCrafter ou d’utiliser le rehaussement spatial. Il peut être conseillé de travailler avec des données de meilleure qualité pour améliorer la qualité du mouvement et visuelle. L’inclusion de suggestions d’images et la recherche de branches conditionnelles d’images pourraient également être des domaines potentiels à explorer pour créer un contenu dynamique avec une fidélité visuelle améliorée en utilisant le modèle de diffusion.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Une exploration approfondie de la quantification des modèles pour le déploiement à grande échelle

Introduction En IA, deux défis distincts ont émergé : le déploiement de gros modèles dans des environnements cloud, e...

AI

Comment créer des miniatures YouTube avec Midjourney (que vous pouvez vendre)

Vous pouvez créer gratuitement des vignettes YouTube de haute qualité (que vous pouvez vendre en ligne) avec Midjourney.

AI

Comment l'IA peut aider les personnes atteintes de handicaps moteurs - comme mon cousin

Il y a cinq ans, ma cousine, une belle jeune femme dans la fleur de l'âge, a été confrontée à une épreuve horrible. E...

AI

Les États-Unis traquent les logiciels malveillants chinois qui pourraient perturber les opérations militaires américaines.

Les responsables du renseignement américain pensent que le logiciel malveillant pourrait donner à la Chine le pouvoir...

AI

L'IA discrimine contre les locuteurs non natifs de l'anglais

Une étude récente a révélé une vérité inquiétante à propos de l’intelligence artificielle (IA) : ses algorithme...

Actualités sur l'IA

Numérisez et découvrez ces codes QR générés par intelligence artificielle.

Dans le domaine de l’artificial intelligence (AI) art, nous avons assisté à des avancées stupéfiantes, allant d...