Les chercheurs de Microsoft présentent SpeechX un modèle de génération de discours polyvalent capable de TTS sans apprentissage et de diverses tâches de transformation de la parole.

Les chercheurs de Microsoft présentent SpeechX, un modèle de génération de discours polyvalent pour TTS et transformation de la parole.

Plusieurs applications d’apprentissage automatique, y compris le texte, la vision et le son, ont connu des développements rapides et significatifs dans la technologie des modèles génératifs. L’industrie et la société ont ressenti des effets significatifs de ces développements. Notamment, les modèles génératifs avec une entrée multimodale sont devenus un véritable développement innovant. La conversion de texte en parole (TTS) sans apprentissage préalable est un problème bien connu de génération de parole dans le domaine de la parole qui utilise une entrée audio-texte. En utilisant simplement un petit extrait audio de l’orateur prévu, le TTS sans apprentissage préalable permet de transformer une source de texte en parole avec les qualités vocales et la manière de parler de cet orateur. Les embeddings de locuteur de dimension fixe ont été utilisés dans les premières recherches sur le TTS sans apprentissage préalable. Cette méthode ne prenait pas en charge efficacement les capacités de clonage de locuteur et restreignait son utilisation au seul TTS.

Cependant, les stratégies récentes ont inclus des concepts plus larges tels que la prédiction de parole masquée et la modélisation du langage de codec neuronal. Ces méthodes de pointe utilisent l’audio de l’orateur cible sans le compresser dans une représentation unidimensionnelle. Par conséquent, ces modèles ont affiché de nouvelles fonctionnalités, telles que la conversion de voix et l’édition de discours, en plus de leur performance exceptionnelle en TTS sans apprentissage préalable. Cette adaptabilité accrue peut considérablement étendre le potentiel des modèles de génération de parole. Malgré leurs réalisations étonnantes, ces modèles génératifs actuels ont néanmoins plusieurs limites, en particulier lorsqu’il s’agit de gérer des tâches de génération de parole basées sur des audio et des textes diversifiés, y compris la conversion de la parole d’entrée.

Par exemple, les algorithmes actuels d’édition de voix sont limités au traitement uniquement des signaux propres et ne peuvent pas modifier le contenu parlé tout en conservant le bruit de fond. De plus, l’approche discutée limite considérablement son applicabilité pratique en exigeant que le signal bruyant soit entouré de segments de parole clairs pour effectuer la débruitage. L’extraction de l’orateur cible est une tâche particulièrement utile dans le contexte de la modification de la parole non nettoyée. L’extraction de l’orateur cible consiste à supprimer la voix d’un orateur cible d’un mélange de discours contenant plusieurs orateurs. Vous pouvez spécifier l’orateur que vous souhaitez en jouant un petit extrait de discours de sa part. Comme mentionné, la génération actuelle de modèles de parole générative ne peut pas accomplir cette tâche malgré son importance potentielle.

Les modèles de régression ont historiquement été utilisés pour la récupération de signal fiable dans les méthodes classiques pour les tâches d’amélioration de la parole telles que le débruitage et l’extraction de l’orateur cible. Cependant, ces techniques antérieures nécessitent parfois différents modèles experts pour chaque tâche, ce qui n’est pas optimal compte tenu de la variété des perturbations acoustiques qui peuvent se produire. Outre de petites études se concentrant principalement sur certaines tâches d’amélioration de la parole, de nombreuses recherches restent à faire sur les modèles d’amélioration de la parole basés sur un texte audio complet qui utilisent des transcriptions de référence pour produire une parole compréhensible. Le développement de modèles de parole générative basés sur un texte audio intégrant des capacités de génération et de transformation revêt une importance critique à la lumière des facteurs susmentionnés et des précédents réussis dans d’autres disciplines.

Fig. 1: Configuration générale de SpeechX. SpeechX utilise un modèle de langage de codec neuronal qui a été formé sur le flux de jetons de texte et acoustiques pour effectuer diverses tâches de génération de parole basées sur un texte audio, telles que la suppression de bruit, la suppression de discours, l’extraction de l’orateur cible, le TTS sans apprentissage préalable, l’édition de discours propre et l’édition de discours bruyant. Pour certaines tâches, une entrée de texte n’est pas nécessaire.

Ces modèles ont la capacité étendue de gérer diverses tâches de génération de voix. Ils suggèrent que de tels modèles devraient inclure les caractéristiques cruciales suivantes :

• Polyvalence : Les modèles de génération de parole basés sur un texte audio unifiés doivent être capables d’exécuter diverses tâches nécessitant une génération de voix à partir de données audio et texte, similaires aux modèles unifiés ou fondamentaux produits dans d’autres domaines d’apprentissage automatique. Non seulement le TTS sans apprentissage préalable, mais également de nombreux types d’altération de la parole, tels que l’augmentation de la parole et l’édition de la parole, devraient être inclus dans ces activités.

• Tolérance : Étant donné que les modèles unifiés sont susceptibles d’être utilisés dans des contextes acoustiquement difficiles, ils doivent faire preuve de tolérance à diverses distorsions acoustiques. Ces modèles peuvent être utiles dans des situations réelles où le bruit de fond est courant, car ils offrent des performances fiables.

• Extensibilité : Les modèles unifiés doivent utiliser des architectures flexibles pour permettre des extensions de prise en charge de tâches fluides. Une façon de le faire est de prévoir de la place pour de nouveaux composants, tels que des modules supplémentaires ou des jetons d’entrée. Les modèles seront mieux en mesure de s’adapter à de nouveaux emplois de génération de discours grâce à cette flexibilité. Les chercheurs de Microsoft Corporation dans cet article présentent un modèle de génération de discours flexible pour atteindre cet objectif. Il est capable d’effectuer plusieurs tâches, telles que la synthèse de la parole sans apprentissage, la suppression du bruit à l’aide d’une entrée de transcription facultative, la suppression de la parole, l’extraction du locuteur cible à l’aide d’une entrée de transcription facultative et l’édition de la parole pour les environnements acoustiques silencieux et bruyants (Fig. 1). Ils désignent SpeechX1 comme leur modèle recommandé.

Tout comme VALL-E, SpeechX adopte une approche de modélisation du langage qui génère des codes d’un modèle de codec neuronal, ou des jetons acoustiques, sur la base d’entrées textuelles et acoustiques. Pour permettre la gestion de tâches diverses, ils intègrent des jetons supplémentaires dans une configuration d’apprentissage multi-tâche, où les jetons spécifient collectivement la tâche à exécuter. Les résultats expérimentaux, utilisant 60 000 heures de données de parole provenant de LibriLight comme ensemble d’entraînement, démontrent l’efficacité de SpeechX, montrant des performances comparables ou supérieures par rapport aux modèles experts dans toutes les tâches mentionnées ci-dessus. Notamment, SpeechX présente des capacités nouvelles ou étendues, telles que la préservation des sons d’arrière-plan lors de l’édition de la parole et l’utilisation de transcriptions de référence pour la suppression du bruit et l’extraction du locuteur cible. Des échantillons audio mettant en valeur les capacités de leur modèle SpeechX proposé sont disponibles sur https://aka.ms/speechx.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez CLAMP un nouvel outil d'IA pour la prédiction de l'activité moléculaire qui peut s'adapter à de nouvelles expériences au moment de l'inférence.

Pendant des décennies, les tâches impliquant la prédiction des propriétés chimiques, macroscopiques ou biologiques d&...

AI

L'imagerie médicale AI simplifiée NVIDIA propose MONAI en tant que service cloud hébergé

NVIDIA a lancé aujourd’hui un service cloud pour l’IA d’imagerie médicale afin de simplifier et d&#...

Actualités sur l'IA

Microsoft affirme que sa nouvelle particule étrange pourrait améliorer les ordinateurs quantiques.

Les chercheurs de Microsoft affirment avoir créé des quasi-particules insaisissables appelées modes zéro de Majorana,...

AI

Les meilleurs générateurs de contenu AI (2023)

La création de contenu écrit a connu un changement radical grâce à l’intelligence artificielle (IA). Un nombre ...

AI

Comment cloner une voix et synchroniser les lèvres dans une vidéo comme un professionnel en utilisant des outils open-source

Introduction La clonage vocal basé sur l’IA a fait sensation sur les réseaux sociaux. Il a ouvert un monde de p...

Science des données

Des chercheurs apprennent à une IA à rédiger de meilleures légendes de graphiques.

Un nouvel ensemble de données peut aider les scientifiques à développer des systèmes automatiques qui génèrent des lé...