MPT-30B MosaicML brille plus que GPT-3 avec un nouveau LLM pour repousser les limites du NLP.

MPT-30B MosaicML surpasses GPT-3 with a new LLM to push the boundaries of NLP.

MosaicML est une entreprise d’intelligence artificielle générative qui propose des solutions de déploiement et de mise à l’échelle de l’IA. Leur dernier modèle de langage large (LLM) MPT-30B fait sensation dans la communauté de l’IA.

Le parcours du LLM de MosaicML a commencé avec la sortie de MPT-7B (Mosaic Pretrained Transformer) en mai 2023, qui était accompagné de trois variantes :

  1. MPT-7B-StoryWriter-65k+ (pour la génération de récits longs)
  2. MPT-7B-Instruct (pour suivre des instructions de forme courte)
  3. MPT-7B-Chat (pour la génération de dialogues)

Les modèles ont connu un énorme succès dans la communauté du ML en raison de leur nature open-source, de leur utilisabilité commerciale et de leur capacité exceptionnelle à gérer des fenêtres de contexte étendues.

Plus important encore, le modèle était au niveau, voire surpassait dans certains cas, les autres modèles comparables (LLaMA-7B, StableLM 7B, etc.). En juin, la série MPT-7B avait été téléchargée plus de 3 millions de fois. Le 22 juin, MosaicML a sorti le MPT-30B, qui a encore repoussé les limites des modèles fondamentaux open-source.

Le MPT-30B : Un puissant LLM qui dépasse GPT-3

Le MPT-30B est un LLM basé sur un décodeur, open-source et sous licence commerciale, qui est plus puissant que le GPT-3-175B avec seulement 17% des paramètres du GPT-3, c’est-à-dire 30B. Il surpasse le GPT-3 sur plusieurs tâches. Voici une comparaison entre le MPT-30B et le GPT-3.

Source

Le MPT-30B s’appuie sur le modèle précédent MPT-7B. Il est plus efficace sur le plan informatique en termes de formation par rapport aux modèles de tailles similaires. Par exemple, le modèle LLaMA-30B utilisait environ 1,44 fois plus de budget FLOPs que le MPT-30B, tandis que le modèle Falcon-40B avait un budget FLOPs 1,27 fois plus élevé que le MPT-30B. Voici une illustration de l’amélioration du MPT-30B sur différentes tâches par rapport à son prédécesseur.

Source

Voici quelques caractéristiques spéciales du MPT-30B :

Fenêtre de contexte de 8 000 tokens

La fenêtre de contexte dans les LLM fait référence à la plage de tokens que le modèle peut prendre en compte avant de générer la sortie. Le MPT-30B avait une fenêtre de contexte de 8 000 tokens lors de l’entraînement. Il a d’abord été entraîné sur 1T de tokens en utilisant des séquences de 2 000 tokens, puis sur 50B de tokens supplémentaires en utilisant des séquences de 8 000 tokens (environ 6 000 mots).

Support ALiBi

Pour expliquer cette fonctionnalité, prenons un exemple :

Comment le MPT-30B peut-il comprendre et faire des prédictions pour des séquences plus longues que celles sur lesquelles il a été entraîné ?

Le MPT-30B utilise une technique appelée Attention with Linear Biases (ALiBi) pour comprendre les séquences plus longues et étendre la fenêtre de contexte au-delà de 8 000 tokens lors de la finetuning ou de l’inférence.

Au lieu de calculer des embeddings positionnels dans lesquels nous attribuons un vecteur à chaque mot de la séquence, ALiBi calcule des scores d’attention entre les tokens clés et les tokens de requête. Lorsque les tokens clés et les tokens de requête sont proches, la pénalité est faible mais elle est plus élevée dans le cas contraire. En conséquence, l’architecture sous-jacente du transformeur peut extrapoler vers des entrées longues.

Performances d’inférence et d’entraînement efficaces grâce à FlashAttention

L’attention, c’est-à-dire se concentrer sur les parties pertinentes de la séquence d’entrée, est un composant critique des transformeurs, mais cela peut être lent et gourmand en mémoire, surtout lors du traitement de longues séquences de texte.

FlashAttention est une approche proposée par des chercheurs de l’Université Cornell qui résout ce problème pour le MPT-30B. En utilisant une technique appelée “tiling”, FlashAttention réduit le nombre de lectures ou d’écritures que le modèle doit effectuer dans la mémoire, accélérant ainsi le traitement. Par conséquent, le modèle utilise la technique FlashAttention de pointe et la bibliothèque d’optimisation FasterTransformer de NVIDIA pour un entraînement et une inférence efficaces.

Facilité de formation et de déploiement

Les développeurs peuvent former le MPT-30B à partir de zéro ou utiliser les points de contrôle de MosaicML pour des déploiements plus rapides. De plus, il peut être affiné pour des cas d’utilisation spécifiques au domaine sur un ensemble de données particulier.

La taille du modèle a été choisie pour permettre un déploiement sans effort sur un seul GPU, en particulier 1xA100-80GB en précision 16 bits ou 1xA100-40GB en précision 8 bits. Cela signifie que le modèle a été conçu pour s’adapter aux limitations de mémoire de ces GPU.

Capacités de codage

Le MPT-30B offre également des capacités de codage exceptionnelles. HumanEval est un ensemble de données publié par OpenAI qui contient 164 problèmes de programmation conçus à la main. Sur l’ensemble de données HumanEval, le modèle dépasse les modèles LLM spécifiquement conçus à cet effet, tels que la série StarCoder.

Source

Variantes affinées : MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

Les LLM sont principalement utilisés pour des instructions telles que la réponse aux questions, la synthèse de texte, la traduction de langues, etc. MPT-30B-Instruct est une variante commercialement utilisable (maintient la licence commerciale CC-By-SA-3.0) de MPT-30B affiné spécifiquement pour les tâches de suivi des instructions. Les ensembles de données suivants ont été utilisés pour l’affinage :

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

L’ensemble de données Dolly a été augmenté avec le jeu de données Helpful and Harmless d’Anthropic pour l’affinage des instructions. De plus, une gamme diversifiée d’ensembles de données a été utilisée pour l’augmentation des données, qui sont les suivantes :

  1. CompetitionMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. QuALITY
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chat est une version affinée de MPT-30B pour la génération de dialogues. Il s’agit d’un artefact de recherche publié sous la licence CC-By-NC-SA-4.0, autorisant uniquement une utilisation non commerciale. Le modèle a été affiné à l’aide de divers ensembles de données linguistiques, notamment :

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Camel
  4. GPTeacher
  5. Guanaco
  6. LongCoversations
  7. ShareGPT
  8. WizardLM

Les LLM représentent une grande partie du marché de l’IA générative, qui a connu une croissance phénoménale en peu de temps après la révolution de ChatGPT l’année dernière. La famille MPT est une partie fondamentale de cette révolution. Dans un proche avenir, nous pouvons nous attendre à voir des modèles open-source disponibles commercialement qui sont bien plus puissants et efficaces que la famille MPT.

Pour les dernières actualités sur l’IA, visitez unite.ai.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez Auto-GPT une application expérimentale open-source montrant la puissance des LLMs comme GPT-4 pour développer et gérer de manière autonome différents types de tâches.

Toran Bruce Richards, fondateur de Significant Gravitas, avec un groupe de développeurs, explore ce qui pourrait être...

AI

Cette recherche en IA propose SMPLer-X un modèle de base généraliste pour la capture de mouvement humain 3D/4D à partir d'entrées monoculaires.

Les secteurs de l’animation, du jeu et de la mode peuvent tous bénéficier du domaine de pointe de l’estim...

AI

Projet d'IA imagine les visages adultes des enfants disparus pendant la dictature militaire en Argentine

Le publiciste argentin Santiago Barros utilise une application pour produire des images de ce à quoi les enfants pris...

AI

Unis nous résistons, divisés nous tombons CoTracker est une approche d'IA qui suit conjointement plusieurs points dans une vidéo.

Les dernières années ont été marquées par des avancées dans la génération d’images et les modèles de langage da...

AI

La hausse des coûts des centres de données liée aux exigences de l'IA

L'utilisation d'énergie associée à l'exécution des calculs intensifs de l'IA devient rapidement un facteur clé de l'a...

Apprentissage automatique

Rencontrez ProFusion Un cadre d'IA sans régularisation pour la préservation des détails dans la synthèse texte-image

Le domaine de la génération de texte vers image a été largement exploré au fil des années et des progrès significatif...