Google AI Research présente Translatotron 3 une nouvelle architecture de traduction de la parole à la parole non supervisée.

Google AI Research présente Translatotron 3 une nouvelle architecture de traduction vocale non supervisée.

La traduction de la parole à la parole (S2ST) a été une technologie transformatrice pour briser les barrières linguistiques, mais la rareté des données vocales parallèles a entravé son progrès. La plupart des modèles existants nécessitent des paramètres supervisés et ont du mal à apprendre la traduction et la reconstruction des attributs vocaux à partir de données d’entraînement synthétisées.

Dans la traduction de la parole à la parole, les modèles précédents de Google AI, tels que Translatotron 1 et Translatotron 2, ont réalisé des avancées notables en traduisant directement la parole entre les langues. Cependant, ces modèles étaient limités car ils reposaient sur un entraînement supervisé avec des données vocales parallèles. Le défi majeur réside dans la rareté de ces données parallèles, rendant la formation des modèles S2ST une tâche complexe. C’est là qu’intervient Translatotron 3, une solution révolutionnaire introduite par une équipe de recherche de Google.

Les chercheurs ont reconnu que la plupart des ensembles de données publics pour la traduction de la parole sont semi- ou entièrement synthétisés à partir de texte, ce qui entraîne des obstacles supplémentaires dans l’apprentissage de la traduction et la reconstruction précise des attributs vocaux qui doivent être mieux représentés dans le texte. En réponse, Translatotron 3 représente un changement de paradigme en introduisant le concept de S2ST non supervisée, qui vise à apprendre la tâche de traduction uniquement à partir de données monolingues. Cette innovation élargit le potentiel de traduction entre différentes paires de langues et introduit la capacité de traduire des attributs vocaux non textuels tels que les pauses, les taux de parole et l’identité de l’interlocuteur.

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

L’architecture de Translatotron 3 est conçue avec trois aspects clés pour relever les défis de S2ST non supervisée :

  1. Pré-entraînement en tant qu’autoencodeur masqué avec SpecAugment : L’ensemble du modèle est pré-entraîné en tant qu’autoencodeur masqué, utilisant SpecAugment – une méthode d’augmentation de données simple pour la reconnaissance vocale. SpecAugment fonctionne sur le spectrogramme logarithmique de mels de l’audio d’entrée, améliorant les capacités de généralisation de l’encodeur.
  2. Appariement non supervisé des plongements basé sur les plongements non supervisés multilingues (MUSE) : Translatotron 3 utilise MUSE, une technique formée sur des langues non appariées qui permet au modèle d’apprendre un espace d’encodage partagé entre les langues source et cible. Cet espace d’encodage partagé facilite une encodage plus efficace et efficace de la parole d’entrée.
  3. Perte de reconstruction par back-translation : Le modèle est entraîné en utilisant une combinaison de perte d’encodage MUSE non supervisée, de perte de reconstruction et de perte de back-translation S2S. Pendant l’inférence, un encodeur partagé encode l’entrée dans un espace d’encodage multilingue, ensuite décodé par le décodeur de la langue cible.

La méthodologie d’entraînement de Translatotron 3 consiste en une auto-encodage avec reconstruction et un terme de back-translation. Dans la première partie, le réseau est entraîné à auto-encoder l’entrée dans un espace d’encodage multilingue en utilisant la perte MUSE et la perte de reconstruction. Cette phase vise à garantir que le réseau génère des représentations multilingues significatives. Le réseau est ensuite entraîné à traduire le spectrogramme d’entrée en utilisant la perte de back-translation dans la deuxième partie. Pour renforcer la nature multilingue de l’espace latent, la perte MUSE et la perte de reconstruction sont appliquées dans cette deuxième partie de l’entraînement. SpecAugment est appliqué à l’entrée de l’encodeur aux deux phases pour garantir que des propriétés significatives sont apprises.

L’évaluation empirique de Translatotron 3 démontre sa supériorité par rapport à un système en cascade de référence, en particulier en préservant les nuances conversationnelles. Le modèle surpasse en qualité de traduction, en similarité des locuteurs et en qualité de la parole. Malgré sa méthode non supervisée, Translatotron 3 est une solution robuste, démontrant des résultats remarquables par rapport aux systèmes existants. Sa capacité à atteindre une naturalité de la parole comparable aux échantillons audio de vérité terrain, mesurée par le Score d’Opinion Moyen (MOS), souligne son efficacité dans des scénarios réels.

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

En abordant le défi de la traduction S2ST non supervisée en raison de la rareté des données vocales parallèles, Translatotron 3 émerge comme une solution innovante. En apprenant à partir de données monolingues et en exploitant MUSE, le modèle atteint une qualité de traduction supérieure et préserve les attributs essentiels de la parole non textuelle. L’approche novatrice de l’équipe de recherche constitue une avancée significative dans la rendant la traduction de la parole à la parole plus polyvalente et efficace pour différents paires de langues. Le succès de Translatotron 3 par rapport aux modèles existants démontre son potentiel de révolutionner le domaine et d’améliorer la communication entre les communautés linguistiques diverses. Dans des travaux futurs, l’équipe vise à étendre le modèle à d’autres langues et à explorer son applicabilité dans des scénarios de traduction S2ST sans pré-entraînement, élargissant ainsi son impact sur la communication mondiale.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Liste des modèles révolutionnaires et open-source d'IA conversationnelle dans le domaine du langage

L’IA conversationnelle fait référence à des technologies telles qu’un agent virtuel ou un chatbot qui uti...

AI

Morphobots pour Mars Caltech développe un robot tout-terrain comme candidat pour une mission de la NASA

En 2020, les universitaires Mory Gharib et Alireza Ramezani ont émis l’idée d’un robot transformable qui ...

AI

Un défaut trouvé dans les appareils Apple a conduit à une infection par un logiciel espion des chercheurs

Des chercheurs basés au Canada, au Citizen Lab, ont découvert une vulnérabilité dans les appareils Apple qui a été ut...