Découvrez WavJourney un cadre AI pour la création audio compositionnelle avec de grands modèles de langage

Découvrez WavJourney, un cadre AI pour la création audio compositionnelle avec de grands modèles de langage.' Condensed version 'Découvrez WavJourney, un cadre AI pour la création audio avec de grands modèles de langage.

Le domaine émergent de l’intelligence artificielle (IA) multimodale fusionne des données visuelles, auditives et textuelles, offrant un potentiel passionnant dans divers domaines, de divertissement personnalisé aux fonctionnalités améliorées d’accessibilité. En tant qu’intermédiaire puissant, le langage naturel promet d’améliorer la compréhension et la communication dans divers domaines sensoriels. Les grands modèles de langage (LLM) ont montré des capacités impressionnantes en tant qu’agents, collaborant avec divers modèles d’IA pour relever les défis multimodaux.

Alors que les LLM sont appréciés pour leur efficacité dans la résolution de tâches multimodales, une question se pose sur les capacités fondamentales de ces modèles : peuvent-ils également servir de créateurs de contenus multimédias dynamiques ? La création de contenu multimédia implique la production de médias numériques sous différentes formes, telles que le texte, les images et l’audio. L’audio, composant essentiel du multimédia, fournit non seulement du contexte et de l’émotion, mais contribue également à des expériences immersives.

Les efforts passés ont utilisé des modèles génératifs pour synthétiser le contexte audio en fonction de conditions spécifiques telles que les descriptions de discours ou de musique. Cependant, ces modèles ont souvent du mal à générer des contenus audio variés au-delà de ces conditions, limitant leur applicabilité dans le monde réel. La création audio compositionnelle présente des défis inhérents en raison de la complexité de la génération de scènes auditives complexes. Utiliser des LLM pour cette tâche implique de relever des défis tels que la compréhension et la conception contextuelles, la production et la composition audio, et l’établissement de pipelines de création interactifs et interprétables. Ces défis impliquent d’améliorer les capacités de narration texte-audio des LLM, d’harmoniser les modèles de génération audio et de créer des pipelines interactifs et interprétables pour la collaboration homme-machine.

Sur la base des problèmes et des défis mentionnés ci-dessus, un nouveau système appelé WavJourney a été proposé. Sa présentation générale est présentée dans le schéma ci-dessous.

WavJourney exploite les LLM pour créer de l’audio compositionnel guidé par des instructions de langage. Cette technique incite les LLM à générer des scripts audio, en respectant des structures prédéfinies englobant la parole, la musique et les effets sonores. Ces scripts prennent en compte de manière complexe les relations spatio-temporelles entre ces éléments acoustiques. Pour aborder les scènes auditives complexes, WavJourney les dissèque en composantes acoustiques individuelles et en leurs dispositions acoustiques correspondantes. Ce script audio est ensuite entré dans un compilateur de script, ce qui donne un programme informatique où chaque ligne de code correspond à l’invocation de modèles de génération audio spécifiques à la tâche, de fonctions d’E/S audio ou d’opérations computationnelles. Ce programme est ensuite exécuté pour générer le contenu audio souhaité.

La conception de WavJourney offre plusieurs avantages notables. Tout d’abord, elle exploite la compréhension et la vaste connaissance des LLM pour créer des scripts audio avec des éléments sonores variés, des connexions acoustiques complexes et des récits audio captivants. Deuxièmement, elle adopte une stratégie compositionnelle, disséquant les scènes auditives complexes en éléments sonores distincts. Cela permet l’incorporation de divers modèles de génération audio spécifiques à la tâche pour la création de contenu, la distinguant des méthodes de bout en bout qui ont souvent du mal à prendre en compte tous les éléments décrits par le texte. Troisièmement, WavJourney fonctionne sans nécessiter de formation de modèles audio ou d’affinage des LLM, optimisant l’utilisation des ressources. Enfin, il facilite la co-création entre les humains et les machines dans la production audio réelle.

Les résultats d’échantillons sélectionnés de l’étude sont présentés dans l’image ci-dessous. Ces études de cas fournissent un aperçu comparatif entre WavJourney et les approches de génération de pointe.

Ceci était le résumé de WavJourney, un nouveau cadre d’intelligence artificielle qui exploite les LLM (Modèles de Langue à Large Mémoire) pour créer de l’audio compositionnel guidé par des instructions de langage. Si vous êtes intéressé(e) et souhaitez en savoir plus, n’hésitez pas à vous référer aux liens cités ci-dessous.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Agents orientés document Un voyage avec les bases de données vectorielles, les LLMs, Langchain, FastAPI et Docker

Exploiter ChromaDB, Langchain et ChatGPT Réponses améliorées et sources citées à partir de vastes bases de données d...

AI

Décoder les LLMs

Les années récentes ont connu une évolution remarquable des modèles de langage avec l'introduction des Transformeurs,...

AI

Construisez un détecteur de spam par courrier électronique en utilisant Amazon SageMaker

Les courriers indésirables, également connus sous le nom de pourriels, sont envoyés à un grand nombre d'utilisateurs ...

AI

Que ont en commun les neurones, les lucioles et danser le Nutbush ?

Les informaticiens et les mathématiciens ont conçu un cadre pour évaluer les phénomènes synchronisés.

AI

Les chercheurs de Google présentent une nouvelle approche d'intelligence artificielle pour modéliser une priorité d'espace d'image par rapport à la dynamique de la scène

Même les images apparemment immobiles incluent des oscillations minimes en raison de choses comme le vent, les couran...