Découvrez WavJourney un cadre AI pour la création audio compositionnelle avec de grands modèles de langage
Découvrez WavJourney, un cadre AI pour la création audio compositionnelle avec de grands modèles de langage.' Condensed version 'Découvrez WavJourney, un cadre AI pour la création audio avec de grands modèles de langage.
Le domaine émergent de l’intelligence artificielle (IA) multimodale fusionne des données visuelles, auditives et textuelles, offrant un potentiel passionnant dans divers domaines, de divertissement personnalisé aux fonctionnalités améliorées d’accessibilité. En tant qu’intermédiaire puissant, le langage naturel promet d’améliorer la compréhension et la communication dans divers domaines sensoriels. Les grands modèles de langage (LLM) ont montré des capacités impressionnantes en tant qu’agents, collaborant avec divers modèles d’IA pour relever les défis multimodaux.
Alors que les LLM sont appréciés pour leur efficacité dans la résolution de tâches multimodales, une question se pose sur les capacités fondamentales de ces modèles : peuvent-ils également servir de créateurs de contenus multimédias dynamiques ? La création de contenu multimédia implique la production de médias numériques sous différentes formes, telles que le texte, les images et l’audio. L’audio, composant essentiel du multimédia, fournit non seulement du contexte et de l’émotion, mais contribue également à des expériences immersives.
Les efforts passés ont utilisé des modèles génératifs pour synthétiser le contexte audio en fonction de conditions spécifiques telles que les descriptions de discours ou de musique. Cependant, ces modèles ont souvent du mal à générer des contenus audio variés au-delà de ces conditions, limitant leur applicabilité dans le monde réel. La création audio compositionnelle présente des défis inhérents en raison de la complexité de la génération de scènes auditives complexes. Utiliser des LLM pour cette tâche implique de relever des défis tels que la compréhension et la conception contextuelles, la production et la composition audio, et l’établissement de pipelines de création interactifs et interprétables. Ces défis impliquent d’améliorer les capacités de narration texte-audio des LLM, d’harmoniser les modèles de génération audio et de créer des pipelines interactifs et interprétables pour la collaboration homme-machine.
- Apprentissage en ensemble avec Scikit-Learn Une introduction conviviale
- Comment vider sa boîte de réception Gmail avec l’IA ?
- Introduction à l’ACP en Python avec Sklearn, Pandas et Matplotlib
Sur la base des problèmes et des défis mentionnés ci-dessus, un nouveau système appelé WavJourney a été proposé. Sa présentation générale est présentée dans le schéma ci-dessous.
WavJourney exploite les LLM pour créer de l’audio compositionnel guidé par des instructions de langage. Cette technique incite les LLM à générer des scripts audio, en respectant des structures prédéfinies englobant la parole, la musique et les effets sonores. Ces scripts prennent en compte de manière complexe les relations spatio-temporelles entre ces éléments acoustiques. Pour aborder les scènes auditives complexes, WavJourney les dissèque en composantes acoustiques individuelles et en leurs dispositions acoustiques correspondantes. Ce script audio est ensuite entré dans un compilateur de script, ce qui donne un programme informatique où chaque ligne de code correspond à l’invocation de modèles de génération audio spécifiques à la tâche, de fonctions d’E/S audio ou d’opérations computationnelles. Ce programme est ensuite exécuté pour générer le contenu audio souhaité.
La conception de WavJourney offre plusieurs avantages notables. Tout d’abord, elle exploite la compréhension et la vaste connaissance des LLM pour créer des scripts audio avec des éléments sonores variés, des connexions acoustiques complexes et des récits audio captivants. Deuxièmement, elle adopte une stratégie compositionnelle, disséquant les scènes auditives complexes en éléments sonores distincts. Cela permet l’incorporation de divers modèles de génération audio spécifiques à la tâche pour la création de contenu, la distinguant des méthodes de bout en bout qui ont souvent du mal à prendre en compte tous les éléments décrits par le texte. Troisièmement, WavJourney fonctionne sans nécessiter de formation de modèles audio ou d’affinage des LLM, optimisant l’utilisation des ressources. Enfin, il facilite la co-création entre les humains et les machines dans la production audio réelle.
Les résultats d’échantillons sélectionnés de l’étude sont présentés dans l’image ci-dessous. Ces études de cas fournissent un aperçu comparatif entre WavJourney et les approches de génération de pointe.
Ceci était le résumé de WavJourney, un nouveau cadre d’intelligence artificielle qui exploite les LLM (Modèles de Langue à Large Mémoire) pour créer de l’audio compositionnel guidé par des instructions de langage. Si vous êtes intéressé(e) et souhaitez en savoir plus, n’hésitez pas à vous référer aux liens cités ci-dessous.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Le Problème de Dispersion des Installations Modèles de Programmation Linéaire en Nombres Mixtes
- Khan Academy lance Khanmigo, un tuteur d’apprentissage génératif en IA
- Word Embeddings Donner à votre ChatBot du contexte pour de meilleures réponses
- Les chercheurs d’Apple proposent un nouveau modèle de décomposition tensorielle pour le filtrage collaboratif avec des commentaires implicites.
- Comment les solutions GenAI révolutionnent l’automatisation des entreprises Découverte des applications LLM pour les cadres
- Classification avec le Perceptron de Rosenblatt
- Thèmes par classe utilisant BERTopic