ByteDance AI Research présente StemGen un modèle d’apprentissage en profondeur de génération musicale de bout en bout, formé pour écouter le contexte musical et y répondre de manière appropriée.

ByteDance AI Research présente StemGen un modèle d'apprentissage en profondeur pour la génération musicale de bout en bout, capable d'écouter le contexte musical et de répondre de manière adaptée.

La génération de musique à l’aide de l’apprentissage en profondeur consiste à entraîner des modèles à créer des compositions musicales, en imitant les motifs et les structures trouvés dans la musique existante. Des techniques d’apprentissage en profondeur sont couramment utilisées, telles que les réseaux RNN, les réseaux LSTM et les modèles de transformateur. Cette recherche explore une approche innovante pour générer de l’audio musical en utilisant des modèles non autorégressifs basés sur des transformateurs qui répondent au contexte musical. Ce nouveau paradigme met l’accent sur l’écoute et la réponse, contrairement aux modèles existants qui reposent sur un conditionnement abstrait. L’étude intègre les avancées récentes dans le domaine et aborde les améliorations apportées à l’architecture.

Des chercheurs de SAMI, ByteDance Inc., présentent un modèle basé sur des transformateurs non autorégressifs qui écoute et répond au contexte musical, en utilisant un point de contrôle Encodec disponible publiquement pour le modèle MusicGen. L’évaluation utilise des métriques standard et une approche de description de recherche d’informations musicales, notamment la distance audio de Frechet (FAD) et la distance de description de recherche d’informations musicales (MIRDD). Le modèle résultant présente une qualité audio compétitive et un alignement musical robuste avec le contexte, validé par des métriques objectives et des tests MOS subjectifs.

La recherche met en évidence les progrès récents réalisés dans la génération d’audio musical de bout en bout grâce à l’apprentissage en profondeur, empruntant des techniques de traitement d’images et de langage. Elle met en avant le défi d’aligner les pistes dans la composition musicale et critique les modèles existants qui reposent sur un conditionnement abstrait. Elle propose un paradigme d’entraînement utilisant une architecture basée sur des transformateurs non autorégressifs pour des modèles qui répondent au contexte musical. Elle introduit deux sources de conditionnement et formule le problème comme une génération conditionnelle. Des métriques objectives, des descripteurs de recherche d’informations musicales et des tests d’écoute sont nécessaires pour l’évaluation du modèle.

La méthode utilise un modèle basé sur des transformateurs non autorégressifs pour la génération de musique, incorporant un quantificateur vectoriel résiduel dans un modèle de codage audio séparé. Elle combine plusieurs canaux audio en un seul élément de séquence grâce à des embeddings concaténés. L’entraînement utilise une procédure de masquage, et un guidage sans classificateur est utilisé pendant l’échantillonnage des jetons pour une meilleure alignment du contexte audio. Des métriques objectives évaluent les performances du modèle, notamment la distance audio de Fréchet et la distance de description de recherche d’informations musicales. L’évaluation implique la génération et la comparaison de sorties d’exemple avec de véritables pistes à l’aide de différentes métriques.

L’étude évalue les modèles générés à l’aide de métriques standard et d’une approche de description de recherche d’informations musicales, comprenant le FAD et le MIRDD. La comparaison avec de véritables pistes indique que les modèles atteignent une qualité audio comparable à celle des modèles textuels les plus avancés et démontrent une forte cohérence musicale avec le contexte. Un test de Mean Opinion Score impliquant des participants formés à la musique valide davantage la capacité du modèle à produire des résultats musicaux plausibles. Le MIRDD, qui évalue l’alignement distributionnel des pistes générées et réelles, fournit une mesure de la cohérence et de l’alignement musical.

En conclusion, la recherche réalisée peut être résumée comme suit :

  • La recherche propose une nouvelle approche d’entraînement pour des modèles générateurs capables de répondre au contexte musical.
  • L’approche introduit un modèle de langage non autorégressif avec un tronc commun basé sur un transformateur et deux améliorations non testées : un guidage multi-source sans classificateur et un biais causal lors du décodage itératif.
  • Les modèles atteignent une qualité audio de pointe en s’entraînant sur des ensembles de données open-source et propriétaires.
  • Les métriques standard et l’approche de description de recherche d’informations musicales ont validé la qualité audio de pointe.
  • Un test de Mean Opinion Score confirme la capacité du modèle à générer des résultats musicaux réalistes.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les meilleurs algorithmes et bibliothèques de détection d'objets en Intelligence Artificielle (IA)

La science de la vision par ordinateur a récemment connu des changements spectaculaires dans l’identification d...

AI

Ce bulletin d'information sur l'IA est tout ce dont vous avez besoin #72

Cette semaine, les actualités sur l'IA ont été dominées par le Devday d'OpenAI et le lancement de nombreux nouveaux m...

AI

Réponses intelligentes en cas de conditions météorologiques extrêmes

Un nouveau système calcule les itinéraires les plus rapides pour que les services d'urgence répondent aux appels tout...

AI

Qu'est-ce que MLOps

MLOps est un ensemble de méthodes et techniques permettant de déployer et de maintenir de manière fiable et efficace ...

Science des données

Une brève introduction à l'IA générative pour les débutants

Les derniers mois ont été marqués par l'émergence de l'IA dite génératrice il est temps de comprendre ses fondements.