Ce document d’IA propose une méthode de synthèse de la parole personnalisée à zéro-shot Lip2Speech un modèle de synthèse de la parole synthétique pour correspondre aux mouvements des lèvres.

This document proposes a method for personalized speech synthesis using a zero-shot Lip2Speech model to match lip movements.

Une équipe de chercheurs de l’Université des Sciences et Technologies de Chine a développé un nouveau modèle d’apprentissage automatique pour la synthèse de la parole à partir des mouvements des lèvres (Lip2Speech). Le modèle est capable de générer une parole synthétisée personnalisée dans des conditions de zéro-shot, ce qui signifie qu’il peut prédire des classes de données qu’il n’a pas rencontrées pendant l’entraînement. Les chercheurs ont présenté leur approche en utilisant un autoencodeur variationnel – un modèle génératif basé sur des réseaux neuronaux qui codent et décodent les données.

La synthèse Lip2Speech consiste à prédire des mots parlés en fonction des mouvements des lèvres d’une personne, et elle a de nombreuses applications dans le monde réel. Par exemple, elle peut aider les patients qui ne peuvent pas produire des sons de la parole à communiquer avec les autres, ajouter du son aux films silencieux, restaurer la parole dans des vidéos bruyantes ou endommagées et même déterminer les conversations dans les images vidéo sans voix. Bien que certains modèles d’apprentissage automatique aient montré des promesses dans les applications Lip2Speech, ils ont souvent du mal à obtenir des performances en temps réel et ne sont pas formés à l’aide d’approches d’apprentissage en zéro-shot.

Typiquement, pour atteindre la synthèse Lip2Speech en zéro-shot, les modèles d’apprentissage automatique nécessitent des enregistrements vidéo fiables des locuteurs pour extraire des informations supplémentaires sur leurs modèles de parole. Cependant, dans les cas où seules des vidéos silencieuses ou incompréhensibles du visage d’un locuteur sont disponibles, ces informations ne peuvent pas être accessibles. Le modèle des chercheurs vise à résoudre cette limitation en générant une parole qui correspond à l’apparence et à l’identité d’un locuteur donné sans s’appuyer sur des enregistrements de leur parole réelle.

L’équipe a proposé une méthode de synthèse Lip2Speech personnalisée en zéro-shot qui utilise des images de visage pour contrôler les identités des locuteurs. Ils ont utilisé un autoencodeur variationnel pour séparer les identités des locuteurs et les représentations du contenu linguistique, permettant aux incrustations de locuteurs de contrôler les caractéristiques vocales de la parole synthétique pour les locuteurs invisibles. De plus, ils ont introduit un apprentissage de représentation multi-modale associé pour améliorer la capacité des incrustations de locuteurs basées sur le visage (FSE) dans le contrôle vocal.

Pour évaluer les performances de leur modèle, les chercheurs ont effectué une série de tests. Les résultats ont été remarquables, car le modèle a généré une parole synthétique qui correspondait précisément aux mouvements des lèvres d’un locuteur et à son âge, son sexe et son apparence globale. Les applications potentielles de ce modèle sont étendues, allant des outils d’assistance pour les personnes ayant des troubles de la parole aux logiciels de montage vidéo et aux aides pour les enquêtes policières. Les chercheurs ont souligné l’efficacité de leur méthode proposée grâce à des expériences approfondies, démontrant que les énoncés synthétiques étaient plus naturels et alignés sur la personnalité de la vidéo d’entrée par rapport aux autres méthodes. Il est important de noter que ce travail représente la première tentative de synthèse Lip2Speech personnalisée en zéro-shot à l’aide d’une image de visage plutôt que d’un audio de référence pour contrôler les caractéristiques vocales.

En conclusion, les chercheurs ont développé un modèle d’apprentissage automatique pour la synthèse Lip2Speech qui excelle dans les conditions de zéro-shot. Le modèle peut générer une parole synthétisée personnalisée qui correspond à l’apparence et à l’identité d’un locuteur en utilisant un autoencodeur variationnel et des images de visage. Les performances réussies de ce modèle ouvrent des possibilités pour diverses applications pratiques, telles que l’aide aux personnes ayant des troubles de la parole, l’amélioration des outils de montage vidéo et l’aide aux enquêtes policières.

Consultez le document et l’article de référence. N’oubliez pas de rejoindre notre SubReddit ML de 24k+, notre Canal Discord et notre Newsletter par e-mail, où nous partageons les dernières nouvelles de la recherche en IA, des projets d’IA intéressants et plus encore. Si vous avez des questions concernant l’article ci-dessus ou si nous avons manqué quelque chose, n’hésitez pas à nous envoyer un e-mail à [email protected]

Consultez 100 outils d’IA dans AI Tools Club

L’article Ce document AI propose une méthode de synthèse Lip2Speech personnalisée en zéro-shot : un modèle de parole synthétique pour correspondre aux mouvements des lèvres est apparu en premier sur MarkTechPost.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

OpenAI dévoile ChatGPT Enterprise avec la puissance de GPT-4

OpenAI, l’organisation pionnière en recherche en intelligence artificielle, vient d’introduire un nouveau...

Informatique

Le chien robotique repère mieux les nids de fourmis de feu envahissants que les humains.

Des scientifiques en Chine et au Brésil testent des chiens robots et l'intelligence artificielle (IA) pour détecter l...

AI

L'entreprise xAI d'Elon Musk fait face à des spéculations sur le financement.

Dans un récent rebondissement, la société d’intelligence artificielle d’Elon Musk, xAI, se retrouve sous ...

AI

Des chercheurs de Princeton présentent MeZO un optimiseur à ordre zéro efficace en mémoire qui peut affiner les grands modèles de langage (LLMs).

Les grands modèles de langage évoluent rapidement avec le succès retentissant de l’Intelligence Artificielle Gé...

AI

Des chercheurs de Stanford et de Mila proposent Hyena un remplacement sans attention du bloc de construction central de nombreux modèles de langage à grande échelle.

Comme nous le savons tous, la course au développement et à la création de modèles génératifs époustouflants tels que ...

Actualités sur l'IA

Découvrez le nouvel outil d'intelligence artificielle de Google pour lutter contre le blanchiment d'argent dans les banques.

Google Cloud, une division d’Alphabet, a introduit l’IA de lutte contre le blanchiment d’argent pou...