Qu’est-ce que les grands modèles de langage (LLMs) ? Applications et types de LLMs.
Les grands modèles de langage (LLMs) sont des modèles de traitement du langage naturel qui sont utilisés dans diverses applications. Il existe différents types de LLMs, chacun étant adapté à des tâches spécifiques.
Les programmes informatiques appelés modèles de langage volumineux offrent aux logiciels de nouvelles options pour analyser et créer du texte. Il n’est pas rare que ces modèles de langage volumineux soient formés à l’aide de pétaoctets ou plus de données textuelles, ce qui les rend de l’ordre de la dizaine de téraoctets. Les paramètres d’un modèle sont les composants appris à partir des données d’entraînement précédentes et établissent essentiellement l’efficacité du modèle sur une tâche, telle que la génération de texte. Les activités de traitement du langage naturel (NLP), telles que la conversion de la parole en texte, l’analyse des sentiments, la synthèse de texte, la correction orthographique, la catégorisation des jetons, etc., reposent sur les modèles de langage en tant que base. Les modèles de langage peuvent analyser un texte et prédire la probabilité du jeton suivant dans la plupart des tâches de traitement du langage naturel. Les unigrammes, les N-grammes, les réseaux exponentiels et neuronaux sont des formes valides pour le modèle de langage.
Applications des modèles de langage volumineux (LLMs)
Le graphique ci-dessous résume l’état actuel du paysage des modèles de langage volumineux (LLM) en termes de fonctionnalités, de produits et de logiciels de soutien.

- Génération de commandes Shell
Warp, un terminal de nouvelle génération, utilise GPT-3 pour transformer le langage naturel en instructions de shell exécutables “comme GitHub Copilot, mais pour le terminal”.
- Façonner l’avenir de l’intelligence artificielle IA L’importance de l’ingénierie rapide pour le progrès et l’innovation
- Modèle ONNX | Échange de réseau neuronal ouvert
- Module d’auto-étiquetage pour les systèmes d’assistance avancée à la conduite basés sur l’apprentissage approfondi sur AWS
Même pour les programmeurs chevronnés, la syntaxe des commandes Shell peut nécessiter des explications.
- Génération d’expressions régulières
La génération d’expressions régulières est une tâche longue pour les développeurs ; cependant, Autoregex.xyz exploite GPT-3 pour automatiser le processus.
- Rédaction
Le modèle le plus populaire pour cette tâche est GPT-3 ; cependant, il existe des alternatives open source telles que BLOOM (de BigScience) et GPT-J d’Eleuther AI. Copy ai, Copysmith, Contenda, Cohere et Jasper ai sont quelques-unes des start-ups qui développent des applications dans ce domaine ; leurs outils facilitent rapidement l’écriture de billets de blog, de contenus de vente, de publicités numériques et de textes de site Web.
- Classification
Classer du texte dans des catégories prédéterminées est un exemple d’apprentissage supervisé. Les textes ayant des significations similaires peuvent être regroupés sans utiliser de classes prédéfinies en utilisant le regroupement, une technique d’apprentissage non supervisé.
- Génération de réponses
La génération de réponses consiste à produire un flux de dialogue en utilisant des discussions d’exemple et en adoptant une approche d’apprentissage automatique. Dans la mesure où la discussion suivante présentée à l’utilisateur est déterminée par un modèle, en tenant compte des réponses passées de l’utilisateur et de la conversation future la plus probable, cela s’appelle un dialogue prédictif.
- Génération de texte
La capacité des modèles de langage volumineux à produire des échantillons à partir d’une brève description, avec ou sans données d’exemple, peut être considérée comme leur “méta-capacité”.
Presque tous les modèles de langage volumineux jouent le rôle de génération. Les données d’apprentissage à peu de tir ne boostent pas seulement la génération, mais la manière dont ces données sont utilisées influence également la génération.
- Réponse à des questions de connaissances
La réponse à des questions de connaissances est une application du traitement du langage naturel intensif en connaissances (KI-NLP), qui permet de répondre à des questions génériques et interdomaines sans avoir besoin d’interroger une interface de programmation d’application (API) ou de s’appuyer sur un référentiel de connaissances conventionnel.
Le traitement du langage naturel intensif en connaissances n’est pas une recherche sur le Web, mais une recherche sémantique basée sur une base de connaissances.
- Génération de frontend/site Web
Pygma est utilisé pour convertir les maquettes Figma en code prêt pour la production. L’objectif ultime de l’initiative CodeGen de Salesforce est de faciliter la conception et la génération de sites Web conversationnels.
- Génération de SQL
Cogram est un traducteur de langage de requête de base de données qui élimine la nécessité pour les utilisateurs de maîtriser SQL pour accéder aux données et obtenir des informations métier.
- Révisions automatiques du code et amélioration de la qualité du code
Codiga fournit des révisions automatiques du code, et Mutable AI a industrialisé les notebooks Jupyter.
- Optimisation des requêtes de base de données et assistance/automatisation DevOps
Les erreurs de base de données, telles que les caches manquants et les index manquants, peuvent entraîner divers problèmes, que Ottertune peut vous aider à diagnostiquer et à corriger.
- Génération de code et autocomplétion
Codex (alimentant Copilot) est l’approche la plus générale ; cependant, il existe une alternative open source dans le CodeGen de Salesforce. Le paysage des start-ups de développement de logiciels comprend des entreprises comme Tabnine, Codiga et Mutable AI.
- Recommandations personnalisées
En ce qui concerne la plateforme de commerce électronique de Naver, HyperCLOVA ne se limite pas à la recherche. Il permet également des fonctionnalités telles que “résumer plusieurs avis de consommateurs en une seule ligne”, “recommander et organiser des produits selon les préférences d’achat de l’utilisateur” et “générer des slogans marketing pour des collections de shopping en vedette”.
Shaped AI fournit également des algorithmes de classement pour les flux, les recommandations et les sites de découverte.
- Génération de documentation des exigences produit (PRD)
Monterey travaille sur un “co-pilote pour le développement de produits” qui pourrait inclure des LLM.
- Informations sur les produits
Ces quatre outils – Viable, Interpret, Cohere et Anecdote – aident à transformer les commentaires des utilisateurs en informations exploitables pour l’amélioration des produits.
- Recherche d’entreprise
Grâce à GPT-3, Glean, Hebbia et Algolia, recherchez des données textuelles ou des applications SaaS pour aider les utilisateurs (internes ou externes) à trouver ce qu’ils recherchent. Les notes internes sur votre lieu de travail sont également automatiquement organisées par Mem.
- Traduction
Meta a réalisé des études pour améliorer la qualité de la traduction pour 204 langues distinctes, soit le double du nombre de langues jamais traduites en une seule fois.
- Tutorat personnalisé
Korbit complète les cours en ligne ouverts à tous, tandis que Replit facilite la compréhension du code informatique.
- Assistance chatbot/agent d’assistance
Des outils tels que LaMDA, Rasa, Cohere, Forethought et Cresta peuvent être utilisés pour alimenter des chatbots ou améliorer la productivité du personnel du service client.
- Assistant d’outil logiciel général
L’objectif à long terme d’Adept AI est de devenir un co-pilote/assistant universel, capable de recommander des étapes de workflow pour n’importe quel programme.
- Correction grammaticale et style
Des aides à l’écriture intelligente peuvent être trouvées sur des sites tels que Duolingo, Writer.com et Grammarly.
- Prise de décision personnelle
Avec l’aide de Oogway, les personnes peuvent mieux organiser leurs options et prendre des décisions éclairées.
Types de LLM
Grands modèles de langage
Il n’est pas rare que de grands modèles de langage soient entraînés à l’aide de pétaoctets ou plus de données textuelles, ce qui les rend de l’ordre de plusieurs téraoctets. Ils font partie des plus grands modèles en termes de nombre de valeurs indépendantes que le modèle peut ajuster à mesure qu’il apprend. Les paramètres d’un modèle sont les composants appris à partir de données d’entraînement antérieures et établissent en essence la compétence du modèle sur une tâche, telle que la génération de texte. Ces dernières années, la popularité des grands modèles de langage a connu une croissance spectaculaire grâce à la recherche sur des structures de plus en plus complexes.
Un certain nombre de nouvelles entreprises, telles que Cohere et AI21 Labs, fournissent des API pour accéder à des modèles similaires à GPT-3. En revanche, d’autres entreprises, y compris des géants de l’internet comme Google, ont choisi de garder leurs modèles de langage élaborés secrets.
Modèles de langage affinés
Par rapport à leurs concurrents plus volumineux, les modèles affinés ont tendance à être plus compacts. L’affinage peut améliorer les performances d’un modèle, que ce soit pour la réponse aux questions ou la génération de séquences de protéines. Cela peut également améliorer la connaissance d’un modèle dans un domaine spécifique, comme les sciences médicales.
En raison de leurs origines dans des modèles de langage préexistants, les modèles affinés nécessitent beaucoup moins de temps et de puissance de calcul pour être formés et exécutés. De nombreux domaines ont utilisé l’affinage, mais InstructGPT d’OpenAI est un exemple particulièrement impressionnant et à jour.
Modèles de langage embarqués
Les variantes Edge, conçues pour être compactes, peuvent prendre la forme de versions affinées des originaux. Elles sont souvent entraînées dès le départ sur très peu de données pour se conformer à certaines restrictions matérielles. Le coût d’utilisation du cloud est évité lorsque le modèle peut être exécuté localement sur le dispositif Edge. Les coûts populaires des modèles basés sur le cloud peuvent s’accumuler à des milliers de dollars pour des tâches telles que l’analyse de millions de tweets. Étant donné que les modèles Edge n’envoient pas de données au cloud pour les traiter, ils devraient être plus privés que leurs équivalents dépendants d’Internet.
Principaux modèles de langage open source
- GPT-Neo, GPT-J et GPT-NeoX
Des modèles d’intelligence artificielle extrêmement puissants, tels que GPT-Neo, GPT-J et GPT-NeoX, peuvent être utilisés pour résoudre des problèmes d’apprentissage à faible effectif. L’apprentissage à faible effectif est similaire à l’entraînement et à l’ajustement fin de tout modèle d’apprentissage en profondeur, mais nécessite moins d’échantillons. Comparé à d’autres modèles GPT open source disponibles publiquement, GPT-NeoX, principalement basé sur Megatron-LM et DeepSeed, constitue une avancée significative. Il a été construit à l’aide de Mesh TensorFlow et optimisé pour les GPU en raison de sa complexité et de sa taille. Jusqu’à présent, le plus grand modèle auto-régressif dense accessible au public était le modèle GPT-NeoX-20B, qui compte 20 milliards de paramètres et a été entraîné sur le Pile. Les capacités d’apprentissage à faible effectif du GPT-NeoX-20B permettent la création de preuves de concept qui peuvent être utilisées pour évaluer la viabilité du projet.
- XLNet
La compréhension de la lecture, la catégorisation de texte, l’analyse des sentiments et d’autres tâches de traitement du langage naturel (NLP) ne sont que quelques-unes des nombreuses tâches pour lesquelles les chercheurs de l’Université Carnegie Mellon et de Google ont construit un nouveau modèle appelé XLNet. En optimisant la probabilité sur tous les ordres possibles de factorisation, sa formulation auto-régressive dépasse les restrictions de BERT, ce qui permet d’acquérir des connaissances dans les deux sens. Il est pré-entraîné à l’aide d’un modèle auto-régressif généralisé. De plus, XLNet intègre le modèle auto-régressif de pointe, Transformer-XL, dans le processus de pré-entraînement. XLNet obtient des performances de pointe sur 18 tâches, y compris la réponse aux questions, l’inférence de langage naturel, l’analyse des sentiments et l’évaluation des documents, et il bat BERT sur 20 tâches.
- Roberta
Le processus de formation de l’approche d’encodage bidirectionnel de Google à partir de Transformers (BERT) a été étudié par des chercheurs de Facebook AI et de l’Université de Washington. De nombreux ajustements ont été apportés au régime d’entraînement, et les résultats se sont améliorés. Les chercheurs ont également entraîné le modèle avec beaucoup plus d’itérations que BERT, ont utilisé un ensemble de données plus important, ont choisi des mini-lots plus grands, ont abandonné la prédiction de la phrase suivante (NSP), etc. Le résultat est RoBERTa (Robustly Optimized BERT Approach), qui atteint des performances de niveau XLNet sur le test GLUE (General Language Understanding Evaluation).
- DeBERTa
Microsoft Research a proposé un BERT amélioré par le décodage avec une attention dissociée pour augmenter les modèles BERT et RoBERTa. Le mécanisme d’attention a d’abord été désolidarisé ; les mots sont représentés par une paire de vecteurs qui transmettent leur contenu et leur emplacement. Les poids d’attention entre les termes sont calculés par une matrice qui prend en compte les deux facteurs indépendamment. Ensuite, un décodeur masqué amélioré est utilisé pour prédire les jetons masqués lors de la pré-formation du modèle, plutôt que la sortie d’une couche softmax. Au moment de la publication, le modèle DeBERTa a obtenu un score de référence GLUE supérieur à celui de l’humain. Les modèles DeBERTa sont toujours largement utilisés pour de nombreuses applications de traitement du langage naturel, notamment la réponse aux questions, la résumé, la catégorisation des tokens et du texte.
- XLM-RoBERTa
XLM-RoBERTa est un modèle de langage qui utilise des transformateurs pour traduire du texte vers cent langues distinctes et vice versa. Dans le passé, cela devait être fait à plusieurs reprises pour chaque nouvelle langue, avec ses nuances uniques. Les modèles multilingues, tels que XLM-RoBERTa, permettent aux organisations de produire de la valeur pour les consommateurs ayant besoin d’aide pour comprendre l’anglais beaucoup plus rapidement. Cependant, ils offrent parfois les meilleures performances par travail.
- DistilBERT
DistilBERT adopte une approche différente des modèles précédents qui cherchent à maximiser l’efficacité de BERT. DistilBERT vise à augmenter la vitesse d’inférence tandis que d’autres méthodes similaires, telles que XLNet, RoBERTa et DeBERT, améliorent les performances. Son objectif est de rendre BERT BASE et BERT LARGE, qui ont respectivement 110M et 340M de paramètres, plus rapides et plus petits.
Pour résumer
L’importance du langage ne peut être surestimée. C’est ainsi que nous prenons des informations sur le monde et y contribuons (par exemple, des accords, des lois ou des messages). La connexion et la communication sont également facilitées par le langage. Bien que les logiciels aient progressé rapidement, les capacités linguistiques des ordinateurs sont encore limitées. Les logiciels excellent à trouver des correspondances mot à mot dans le texte, mais ils ont du mal avec les techniques linguistiques plus nuancées que les gens utilisent au quotidien. Il est indéniable qu’il est nécessaire de disposer d’instruments plus sophistiqués dotés d’une compréhension linguistique améliorée.
Le développement des technologies de traitement du langage a été une avancée majeure dans le domaine de l’intelligence artificielle (IA), nous permettant de créer des systèmes plus intelligents que jamais, qui ont une compréhension plus profonde du langage humain. Bien que les modèles linguistiques énormes, affinés et à la pointe de la technologie s’améliorent constamment grâce à la recherche en cours, ils rencontrent néanmoins des défis sur la voie de leur utilisation généralisée. Malgré leur utilité, la formation et la mise en œuvre efficaces de ces modèles nécessitent des données, une puissance de calcul et une expertise technique.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les trois méthodes essentielles pour évaluer un nouveau modèle de langage
- IA vs. Analyse prédictive Une analyse complète
- Que se passe-t-il si vous exécutez un modèle de transformer avec un réseau neuronal optique ?
- Cet outil d’IA explique comment l’IA voit les images et pourquoi elle pourrait confondre un astronaute avec une pelle.
- Qu’est-ce qu’un circuit intégré programmable sur le terrain (FPGA) FPGA vs GPU pour l’intelligence artificielle (IA)
- Google AI présente les plugins de diffusion MediaPipe qui permettent la génération de texte vers image contrôlable sur l’appareil.
- Salesforce présente XGen-7B un nouveau modèle LLM de 7B entraîné sur des séquences allant jusqu’à 8K pour 1,5T jetons.