Meta AI rend AudioCraft open source une bibliothèque PyTorch pour la recherche en apprentissage profond sur la génération audio

Meta AI rend AudioCraft open source, une bibliothèque PyTorch pour la recherche en apprentissage profond sur la génération audio.

Pour permettre aux chercheurs et aux praticiens de former leurs modèles et de faire progresser l’état de l’art, Meta a publié le code source de son IA générative texte-musique, AudioCraft. MusicGen, AudioGen et EnCodec sont les trois modèles qui composent le cadre de développement d’AudioCraft.

  • MusicGen peut générer de la musique en fonction des saisies textuelles de l’utilisateur car il a été formé avec de la musique appartenant à Meta et spécifiquement sous licence.
  • AudioGen peut créer du son à partir de saisies textuelles et être formé sur des effets sonores publics.
  • EnCodec est un encodeur, un quantificateur et un décodeur basés sur l’IA.

AudioGen peut créer du son à partir de saisies textuelles et être formé sur des effets sonores publics. Une version améliorée du décodeur EnCodec est publiée par Meta, permettant une génération de musique de meilleure qualité avec moins d’artefacts, ainsi que le modèle AudioGen pré-entraîné, qui peut être utilisé pour générer des sons environnementaux et des effets sonores tels qu’un chien qui aboie, des voitures qui klaxonnent ou des pas sur un sol en bois, ainsi que tous les poids et le code du modèle AudioCraft. Les chercheurs intéressés par la technologie peuvent utiliser les modèles. Meta est ravi de rendre sa plateforme disponible pour la première fois aux chercheurs et aux praticiens, leur permettant de former leurs modèles avec leurs ensembles de données et de contribuer à l’état de l’art.

Après avoir été formé, il peut produire de la musique réaliste et de haute qualité ou des effets sonores basés sur les mots saisis par l’utilisateur. MusicGen, AudioGen et EnCodec sont les trois modèles présents dans AudioCraft. MusicGen et AudioGen peuvent générer de la musique et des effets sonores à partir de texte en fonction de leurs ensembles de formation respectifs. MusicGen utilise la musique appartenant à Meta et autorisée, tandis qu’AudioGen utilise des ensembles de données sonores publics. Meta a publié deux modèles en juin et octobre 2017 : MusicGen et AudioGen.

Meta affirme qu’avec son interface intuitive, AudioCraft peut produire un son de qualité professionnelle. Ils prétendent également rationaliser la conception actuelle de la génération audio de pointe en utilisant une méthode innovante. Ils détaillent comment AudioCraft utilise le codec audio neuronal EnCodec pour extraire des informations significatives des données audio brutes. Ensuite, un modèle de langage autorégressif est alimenté en un “vocabulaire” prédéterminé d’échantillons musicaux (jetons audio). Important pour la création de musique, ce modèle forme un nouveau modèle de langage audio en exploitant la structure sous-jacente des jetons pour capturer leurs relations à long terme. Les jetons basés sur la description textuelle sont générés par le nouveau modèle et renvoyés au décodeur EnCodec, permettant la synthèse audio et musicale.

Meta démontre en quoi AudioGen est unique par rapport aux générateurs de musique IA conventionnels. Des représentations symboliques de la musique, telles que MIDI ou les rouleaux de papier perforé pour piano, sont utilisées depuis longtemps dans la formation musicale pour produire des modèles IA. Cependant, ces approches doivent être révisées lors de l’enregistrement des subtilités de l’expression musicale et des composants esthétiques. Une approche plus complexe consiste à alimenter la musique originale dans le système et à utiliser l’apprentissage de représentation audio auto-supervisé (apprentissage de représentation audio) et des modèles hiérarchiques multiples (modèle en cascade) pour générer de la musique, le tout pour capturer la structure à plus longue portée du signal. Un bon son est produit, bien que les effets puissent nécessiter quelques ajustements.

Conformément aux principes de l’IA responsable, les chercheurs de Meta mettent à disposition de la communauté de recherche des cartes de modèle AudioGen et MusicGen, qui documentent la façon dont ils ont développé les modèles, dans différentes tailles. Le cadre de recherche audio et le code de formation sont accessibles au public sous licence MIT afin que d’autres puissent l’utiliser et l’étendre. Meta pense que de tels modèles pourraient être utiles aux musiciens amateurs et professionnels si des contrôles plus sophistiqués étaient développés. Pensez aux possibilités offertes par une lecture améliorée d’histoires avant le coucher avec des effets sonores et de la musique dramatique rendues possibles grâce à une base open source solide.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

ChatGPT Des suggestions pour stimuler votre créativité

Vous avez du mal à penser à de bonnes idées ? Externalisez votre créativité à ChatGPT.

AI

L'IA crée des images de Barbie, reçoit des critiques pour racisme

En plein cœur de l’engouement autour du prochain film Barbie, des images de Barbie générées par l’intelli...

AI

L'IA peut-elle résoudre votre problème ?

Dans une organisation de produits visant à intégrer des capacités d'IA dans leurs produits et services, il y a toujou...

AI

Un voyage à travers l'IA générative

Explorez ma vaste expérience dans l'adoption enthousiaste de l'IA générative pour obtenir des informations précieuses...

AI

Falcon AI Le nouveau modèle de langage large à source ouverte

Introduction Depuis le lancement de GPT (Generative Pre Trained) par Open AI, le monde a été bouleversé par l’I...

AI

Gén-AI Amusement, Peur et Futur!

Cet article explore l'impact de l'IA sur la génération d'images et examine ce que cela signifie pour les développeurs...