Découvrez LLaSM un modèle de langage multi-modal de grande taille, entraîné de bout en bout, doté de capacités conversationnelles croisées, capable de suivre des instructions verbales et linguistiques.

Découvrez LLaSM, un modèle de langage multi-modal de grande taille, avec des capacités conversationnelles croisées et d'instructions verbales.

La parole transporte plus d’informations que l’écrit car elle prend en compte des informations sémantiques et paralinguistiques telles que le ton. De plus, parler est une approche plus pratique et organique pour les gens de communiquer avec l’IA. Par conséquent, il est essentiel de suivre les directives de la parole et du langage lors de la création d’un assistant polyvalent. Cependant, la plupart des grands modèles de langage n’acceptent que des entrées textuelles, limitant leur potentiel. Bien que les modèles multi-modaux vision-et-langage permettent des avancées significatives dans l’intelligence artificielle générale (AGI), il est encore fastidieux pour les humains de saisir des tâches en entrant des instructions textuelles.

Le modèle de reconnaissance automatique de la parole (ASR) est utilisé par les approches en cascade pour transformer l’entrée vocale en entrée textuelle, que le modèle peut ensuite utiliser pour traiter la tâche. La transition modale de la voix au texte entraîne toujours une consommation d’informations et peut importer des erreurs du système ASR. Récemment, des modèles multi-modaux de parole-langage avec un grand modèle de langage qui traite et produit la voix et le texte ont été capables de comprendre et de produire des informations multi-modales. Les signaux de parole sont découpés en tokens distincts et étendus au vocabulaire du LLM. Dans ce sens, le LLM nécessite des données multi-modales étendues et des ressources informatiques puissantes pour être re-entraîné.

Les auteurs de LinkSoul.AI, de l’Université de Pékin et de 01.ai suggèrent LLaSM, un modèle de parole-langage de taille importante avec des capacités conversationnelles multi-modales qui peut comprendre et suivre des commandes parlées dans cette étude. Ils utilisent l’encodeur modal de la parole bien entraîné et le LLM, tout comme LLaVA, ce qui rend LLaSM plus économique en ressources. Ils utilisent spécifiquement Whisper en tant qu’encodeur vocal pour incorporer les signaux de parole. Les embeddings textuels d’entrée du grand modèle de langage sont appariés aux embeddings de la parole à l’aide d’un adaptateur modal. Pour créer des séquences entrelacées, les embeddings de la parole et du texte sont combinés. Les séquences entrelacées sont ensuite alimentées dans le LLM pour un ajustement fin supervisé.

Il y a deux phases dans la procédure d’entraînement. Ils utilisent les ensembles de données ASR publics pour la pré-formation d’adaptation de modalité dans la première étape. Seul l’adaptateur modal a été entraîné pour aligner les embeddings de la voix et du texte ; le LLM et l’encodeur de la parole ont été verrouillés. Étant donné qu’une petite partie des paramètres de l’adaptateur modal est introduite lors de cette étape, et que la plupart des paramètres du modèle doivent encore être fixés, cela ne nécessite pas beaucoup de ressources. Dans la deuxième étape, des données d’instructions multi-modales sont utilisées pour former le modèle à gérer des instructions multi-modales et à analyser des interactions multi-modales. Alors que les paramètres du modèle de langage et de l’adaptateur modal sont modifiés pour l’enseignement multi-modal, l’encodeur vocal est figé.

Il est important de noter que peu d’ensembles de données multi-modaux d’instructions parole-texte en source ouverte sont disponibles. Ainsi, ils ont créé et publié l’ensemble de données LLaSM-Audio-Instructions. L’ensemble de données est créé en choisissant soigneusement des conversations de GPT4-LLM, ShareGPT et WizardLM, puis en créant une quantité significative de données audio conversationnelles à l’aide de la technologie de synthèse de la parole. À leur connaissance, il s’agit du plus grand ensemble de données d’instructions parole-texte en chinois et en anglais, avec 199 000 dialogues, 80 000 échantillons audio chinois et 428 000 échantillons audio anglais.

Leur étude apporte les contributions suivantes :

• Ils créent un modèle multi-modal de parole-langage qui peut comprendre et exécuter des commandes de parole-langage, offrant une approche plus pratique et organique pour les gens de communiquer avec l’intelligence artificielle.

• Ils créent et publient LLaSM-Audio-Instructions, un grand ensemble de données pour le suivi d’instructions crossmodales qui combine la parole et le texte en chinois et en anglais.

• La démo peut être consultée en ligne sur HuggingFace, et le code est disponible sur GitHub.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de Microsoft présentent LoRAShear Une nouvelle approche efficace de l'intelligence artificielle pour élaguer structurellement les LLM et récupérer les connaissances.

Les LLM peuvent traiter de vastes quantités de données textuelles et récupérer rapidement des informations pertinente...

AI

Découvrez Retroformer un cadre d'IA élégant pour améliorer itérativement les grands agents de langage en apprenant un modèle rétrospectif plug-in.

Une nouvelle tendance puissante a émergé, dans laquelle les grands modèles de langage (LM) sont améliorés pour deveni...

AI

Apprenez l'IA ensemble - Towards AI Community Newsletter #3

Bonjour les passionnés d'IA ! Je suis ravi de partager l'épisode de podcast de cette semaine, où je discute avec Ken ...

Actualités sur l'IA

La technologie d'IA pour révolutionner les soins aux patients

Dans une évolution passionnante pour le Service National de Santé (NHS), Henry Smith, député, a exprimé son soutien p...

AI

La personnalisation d'images IA révolutionnaire de Nvidia la méthode de perfusion

Dans le monde en constante évolution de la création artistique par l’IA, Nvidia a dévoilé une méthode révolutio...